Python 3.x 在零碎的响应中检查源代码_Python 3.x_Web Scraping_Scrapy

Python 3.x 在零碎的响应中检查源代码

python-3.x web-scraping scrapy

Python 3.x 在零碎的响应中检查源代码,python-3.x,web-scraping,scrapy,Python 3.x,Web Scraping,Scrapy,我制作了一个相当大的蜘蛛，基本上是从amazon产品页面提取数据问题是，有时候，当我提取数据时，没有数据返回。在这之后，我检查处理过的URL，然后使用chrome工具跟踪xpath，数据实际上就在那里我知道我和Chrome工具看到的与spider处理的不一样，那么，有没有办法真正看到spider试图从中提取的源代码？在chrome工具的帮助下生成的XPath是否值得信任您可以从Scrapy保存一个“坏的”响应，并对其进行调查： if not response.xpath('//YOUR/X

我制作了一个相当大的蜘蛛，基本上是从amazon产品页面提取数据

问题是，有时候，当我提取数据时，没有数据返回。在这之后，我检查处理过的URL，然后使用chrome工具跟踪xpath，数据实际上就在那里

我知道我和Chrome工具看到的与spider处理的不一样，那么，有没有办法真正看到spider试图从中提取的源代码？在chrome工具的帮助下生成的XPath是否值得信任

您可以从Scrapy保存一个“坏的”

响应

，并对其进行调查：

if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
    with open("Error.htm", "wb") as f:
        f.write(response.body)

您可以从Scrapy保存一个“坏的”

响应

，并对其进行调查：

if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
    with open("Error.htm", "wb") as f:
        f.write(response.body)

使用（Chrome中的Ctrl-U）检查视图源。Chrome工具并不总是与html源代码对齐。可能是由于页面上的JavaScript。

使用（Chrome中的Ctrl-U）检查视图源代码。Chrome工具并不总是与html源代码对齐。可能是由于页面上的JavaScript