Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy无法使用extract_first()获取干净的文本_Python_Xpath_Scrapy - Fatal编程技术网

Python Scrapy无法使用extract_first()获取干净的文本

Python Scrapy无法使用extract_first()获取干净的文本,python,xpath,scrapy,Python,Xpath,Scrapy,我正试图从一个网站的许多跨标签刮一些文字,但没有得到干净的文字,任何帮助将不胜感激 以下是网址: https://www.example.com 这就是我正在尝试的 response.xpath('//div[@class="agency-header__address"]').extract_first() 预期产出: Level 18, 25 Bligh Street, SYDNEY, NSW 2000 您需要为给定xpath中的所有内容获取xpathtext()。 例如: resul

我正试图从一个网站的许多跨标签刮一些文字,但没有得到干净的文字,任何帮助将不胜感激

以下是网址:

https://www.example.com
这就是我正在尝试的

response.xpath('//div[@class="agency-header__address"]').extract_first()
预期产出:

Level 18, 25 Bligh Street, SYDNEY, NSW 2000

您需要为给定xpath中的所有内容获取xpath
text()
。 例如:

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()
这将返回多个
span
元素,因此必须使用
extract()
。 然后,您可以加入并按照自己的意愿进行清理,比如:

''.join(result).replace('\xa0', ' ')

您需要为给定xpath中的所有内容获取xpath
text()
。 例如:

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()
这将返回多个
span
元素,因此必须使用
extract()
。 然后,您可以加入并按照自己的意愿进行清理,比如:

''.join(result).replace('\xa0', ' ')

您可以通过提取
div
的字符串表示形式来获取所需的文本:

response.xpath('string(//div[@class="agency-header__address"])').extract_first()

您可以通过提取
div
的字符串表示形式来获取所需的文本:

response.xpath('string(//div[@class="agency-header__address"])').extract_first()

此任务有一个有用的库(来自Scrapy的创建者),您应该尝试一下:


Out[4]:“新南威尔士州悉尼布莱街25号18楼”

此任务有一个有用的库(来自Scrapy的创建者),您应该尝试一下:

[4]:“新南威尔士州悉尼布莱街25号18层,2000”