Python xpath通过<;拆分字符串;br>;标签
我对python和废弃的库有问题。当此代码出现时:Python xpath通过<;拆分字符串;br>;标签,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我对python和废弃的库有问题。当此代码出现时: self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract() 运行时,它从段落中提取文本,但按标记将其拆分 因此,我不能像这样访问它:self.item['char\u SP4\u TIP'][0],而必须访问[0][1][2]等。。无论有多少标记。有没有办法修复它,使它不会被标记分割?谢谢。您的xpa
self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()
运行时,它从段落中提取文本,但按
标记将其拆分
因此,我不能像这样访问它:self.item['char\u SP4\u TIP'][0]
,而必须访问[0][1][2]
等。。无论有多少
标记。有没有办法修复它,使它不会被
标记分割?谢谢。您的xpath选择所有文本节点,但
不是文本节点
废话
废话
选择这些^^^^^^^^^
您可以join
分割文本
texts = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()
text = '\n'.join(texts)
如果该类有多个
标记:
text = ['\n'.join(p.xpath('/text()').extract())
for p in response.xpath('//p[contains(@class, "spell-tooltip")]')]
您能显示正在解析的相关HTML吗?还有,页面上有多少这样的标签?是的,一个标签看起来像:废话废话废话。
废话废话废话废话废话废话。由于标签的原因,报废会将其分为两部分。我只需要把它们放在一起,然后我就可以替换标签了。