Python Scrapy无法使用extract_first()获取干净的文本
我正试图从一个网站的许多跨标签刮一些文字,但没有得到干净的文字,任何帮助将不胜感激 以下是网址:Python Scrapy无法使用extract_first()获取干净的文本,python,xpath,scrapy,Python,Xpath,Scrapy,我正试图从一个网站的许多跨标签刮一些文字,但没有得到干净的文字,任何帮助将不胜感激 以下是网址: https://www.example.com 这就是我正在尝试的 response.xpath('//div[@class="agency-header__address"]').extract_first() 预期产出: Level 18, 25 Bligh Street, SYDNEY, NSW 2000 您需要为给定xpath中的所有内容获取xpathtext()。 例如: resul
https://www.example.com
这就是我正在尝试的
response.xpath('//div[@class="agency-header__address"]').extract_first()
预期产出:
Level 18, 25 Bligh Street, SYDNEY, NSW 2000
您需要为给定xpath中的所有内容获取xpath
text()
。
例如:
result = response.xpath('//div[@class="agency-header__address"]//text()').extract()
这将返回多个span
元素,因此必须使用extract()
。
然后,您可以加入并按照自己的意愿进行清理,比如:
''.join(result).replace('\xa0', ' ')
您需要为给定xpath中的所有内容获取xpath
text()
。
例如:
result = response.xpath('//div[@class="agency-header__address"]//text()').extract()
这将返回多个span
元素,因此必须使用extract()
。
然后,您可以加入并按照自己的意愿进行清理,比如:
''.join(result).replace('\xa0', ' ')
您可以通过提取
div
的字符串表示形式来获取所需的文本:
response.xpath('string(//div[@class="agency-header__address"])').extract_first()
您可以通过提取
div
的字符串表示形式来获取所需的文本:
response.xpath('string(//div[@class="agency-header__address"])').extract_first()
此任务有一个有用的库(来自Scrapy的创建者),您应该尝试一下:
Out[4]:“新南威尔士州悉尼布莱街25号18楼”此任务有一个有用的库(来自Scrapy的创建者),您应该尝试一下: [4]:“新南威尔士州悉尼布莱街25号18层,2000”