Python 如何从HTML字符串中提取内容
我想从DIV标签中提取内容。我正在使用scrapy来废弃一些站点,但问题是同一个DIV标签有两种类型的内容:Python 如何从HTML字符串中提取内容,python,scrapy,Python,Scrapy,我想从DIV标签中提取内容。我正在使用scrapy来废弃一些站点,但问题是同一个DIV标签有两种类型的内容: ["<div class=\"price\">\n <s>Rs.330</s> <b>Rs.297</b>\n </div>"] [“\n Rs.330 Rs.297\n”] 及 [“\n Rs.330\n”] 如何从该标签
["<div class=\"price\">\n <s>Rs.330</s> <b>Rs.297</b>\n </div>"]
[“\n Rs.330 Rs.297\n”]
及
[“\n Rs.330\n”]
如何从该标签中提取内容?使用:
导入bs4
html=“\n Rs.330 Rs.297\n”
soup=bs4.BeautifulSoup(html,features=“xml”)
s=soup.div.s.text#u'Rs.330'
b=soup.div.b.text#u'Rs.297'
Scrapy使用XPath进行报废尝试/div[contains(@class,'price')]/s/@text
是的,我尝试过,但同一个div对不同的产品有两种类型的内容……问题是div对物品有价格或者有时间,所以我如何区分它们……这就是为什么我在寻找其他东西。。。
["<div class=\"price\">\n Rs.330 \n</div>"]
import bs4
html = "<div class=\"price\">\n <s>Rs.330</s> <b>Rs.297</b>\n </div>"
soup = bs4.BeautifulSoup(html, features="xml")
s = soup.div.s.text # u'Rs.330'
b = soup.div.b.text # u'Rs.297'