Python网页抓取、类别提取

Python网页抓取、类别提取,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我有下面的代码提取引用文本和作者使用Beautifulsoup。我能够得到,但是每个引用都属于一个类别(例如,在下面的html中,在字符串的末尾)。请让我知道如何获得与引用文本和作者一起的类别 table = soup.findAll('img') for image in table: alt_table = image.attrs['alt'].split('#') # print(alt_table[0]) # Quote text extracted # print(len(

我有下面的代码提取引用文本和作者使用Beautifulsoup。我能够得到,但是每个引用都属于一个类别(例如,在下面的html中,在字符串的末尾)。请让我知道如何获得与引用文本和作者一起的类别

table = soup.findAll('img')
for image in table:
  alt_table = image.attrs['alt'].split('#')
  # print(alt_table[0]) # Quote text extracted
  # print(len(alt_table))
  # To prevent index error if author is not there
  if len(alt_table)>1:
    quote = alt_table[0]
    author = alt_table[1]
    author = (alt_table[1]).replace('<Author:' , '').replace('>', '') #Format author label
    print('Quote: %s \nAuthor: %s' %(quote, author))
  else:
    quote = alt_table[0]
    print('Quote: %s' %(quote))
table=soup.findAll('img'))
对于表中的图像:
alt_table=image.attrs['alt'].split('#')
#打印(alt_表[0])#引用提取的文本
#打印(len(alt_表))
#若作者不在,则防止索引错误
如果len(alt_表)>1:
quote=alt_表[0]
author=alt_表[1]
作者=(alt_表[1])。替换('

由于您正在处理图像标记,请使用
查找下一个
获取下一个标记,并使用.text获取值

table = soup.findAll('img')
for image in table:
  alt_table = image.attrs['alt'].split('#')
  # print(alt_table[0]) # Quote text extracted
  # print(len(alt_table))
  # To prevent index error if author is not there
  if len(alt_table)>1:
    quote = alt_table[0]
    author = alt_table[1]
    author = (alt_table[1]).replace('<Author:' , '').replace('>', '') #Format author label
    print('Quote: %s \nAuthor: %s' %(quote, author))
    print(image.find_next('h5', class_='value_on_red').find_next('a').text)
  else:
    quote = alt_table[0]
    print('Quote: %s' %(quote))
    print(image.find_next('h5', class_='value_on_red').find_next('a').text)
table=soup.findAll('img'))
对于表中的图像:
alt_table=image.attrs['alt'].split('#')
#打印(alt_表[0])#引用提取的文本
#打印(len(alt_表))
#若作者不在,则防止索引错误
如果len(alt_表)>1:
quote=alt_表[0]
author=alt_表[1]
作者=(alt_表[1])。替换(“”,)#格式化作者标签
打印('引用:%s\n作者:%s'(引用,作者))
打印(image.find_next('h5',class='value_on_red')。find_next('a')。文本)
其他:
quote=alt_表[0]
打印('引号:%s'(引号))
打印(image.find_next('h5',class='value_on_red')。find_next('a')。文本)

完成。谢谢。。。