Python Scrapy无法使用extract_first（）获取干净的文本_Python_Xpath_Scrapy

Python Scrapy无法使用extract_first（）获取干净的文本

python xpath scrapy

Python Scrapy无法使用extract_first（）获取干净的文本,python,xpath,scrapy,Python,Xpath,Scrapy,我正试图从一个网站的许多跨标签刮一些文字，但没有得到干净的文字，任何帮助将不胜感激以下是网址： https://www.example.com 这就是我正在尝试的 response.xpath('//div[@class="agency-header__address"]').extract_first() 预期产出： Level 18, 25 Bligh Street, SYDNEY, NSW 2000 您需要为给定xpath中的所有内容获取xpathtext（）。例如： resul

我正试图从一个网站的许多跨标签刮一些文字，但没有得到干净的文字，任何帮助将不胜感激

以下是网址：

https://www.example.com

这就是我正在尝试的

response.xpath('//div[@class="agency-header__address"]').extract_first()

预期产出：

Level 18, 25 Bligh Street, SYDNEY, NSW 2000

您需要为给定xpath中的所有内容获取xpath

text（）

。例如：

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()

这将返回多个

span

元素，因此必须使用

extract（）

。然后，您可以加入并按照自己的意愿进行清理，比如：

''.join(result).replace('\xa0', ' ')

您需要为给定xpath中的所有内容获取xpath

text（）

。例如：

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()

这将返回多个

span

元素，因此必须使用

extract（）

。然后，您可以加入并按照自己的意愿进行清理，比如：

''.join(result).replace('\xa0', ' ')

您可以通过提取

div

的字符串表示形式来获取所需的文本：

response.xpath('string(//div[@class="agency-header__address"])').extract_first()

您可以通过提取

div

的字符串表示形式来获取所需的文本：

response.xpath('string(//div[@class="agency-header__address"])').extract_first()

此任务有一个有用的库（来自Scrapy的创建者），您应该尝试一下：

Out[4]：“新南威尔士州悉尼布莱街25号18楼”

此任务有一个有用的库（来自Scrapy的创建者），您应该尝试一下：

[4]：“新南威尔士州悉尼布莱街25号18层，2000”