Python xpath通过<;拆分字符串;br>;标签

Python xpath通过<;拆分字符串;br>;标签,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我对python和废弃的库有问题。当此代码出现时: self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract() 运行时,它从段落中提取文本,但按标记将其拆分 因此,我不能像这样访问它:self.item['char\u SP4\u TIP'][0],而必须访问[0][1][2]等。。无论有多少标记。有没有办法修复它,使它不会被标记分割?谢谢。您的xpa

我对python和废弃的库有问题。当此代码出现时:

self.item['char_SP4_TIP'] = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()
运行时,它从段落中提取文本,但按

标记将其拆分


因此,我不能像这样访问它:
self.item['char\u SP4\u TIP'][0]
,而必须访问
[0][1][2]
等。。无论有多少

标记。有没有办法修复它,使它不会被

标记分割?谢谢。

您的xpath选择所有文本节点,但

不是文本节点

废话

废话

选择这些^^^^^^^^^
您可以
join
分割文本

texts = response.xpath('//p[contains(@class, "spell-tooltip")]/text()').extract()
text = '\n'.join(texts)
如果该类有多个
标记:

text = ['\n'.join(p.xpath('/text()').extract()) 
           for p in response.xpath('//p[contains(@class, "spell-tooltip")]')]

您能显示正在解析的相关HTML吗?还有,页面上有多少这样的
标签?是的,一个标签看起来像:

废话废话废话。

废话废话废话废话废话废话。由于标签的原因,报废会将其分为两部分。我只需要把它们放在一起,然后我就可以替换标签了。