Python 3.x 在零碎的响应中检查源代码
我制作了一个相当大的蜘蛛,基本上是从amazon产品页面提取数据 问题是,有时候,当我提取数据时,没有数据返回。在这之后,我检查处理过的URL,然后使用chrome工具跟踪xpath,数据实际上就在那里 我知道我和Chrome工具看到的与spider处理的不一样,那么,有没有办法真正看到spider试图从中提取的源代码?在chrome工具的帮助下生成的XPath是否值得信任 您可以从Scrapy保存一个“坏的”Python 3.x 在零碎的响应中检查源代码,python-3.x,web-scraping,scrapy,Python 3.x,Web Scraping,Scrapy,我制作了一个相当大的蜘蛛,基本上是从amazon产品页面提取数据 问题是,有时候,当我提取数据时,没有数据返回。在这之后,我检查处理过的URL,然后使用chrome工具跟踪xpath,数据实际上就在那里 我知道我和Chrome工具看到的与spider处理的不一样,那么,有没有办法真正看到spider试图从中提取的源代码?在chrome工具的帮助下生成的XPath是否值得信任 您可以从Scrapy保存一个“坏的”响应,并对其进行调查: if not response.xpath('//YOUR/X
响应
,并对其进行调查:
if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
with open("Error.htm", "wb") as f:
f.write(response.body)
您可以从Scrapy保存一个“坏的”响应
,并对其进行调查:
if not response.xpath('//YOUR/XPATH/THAT/WORKS/FOR/NORMAL/PAGES'):
with open("Error.htm", "wb") as f:
f.write(response.body)
使用(Chrome中的Ctrl-U)检查视图源。Chrome工具并不总是与html源代码对齐。可能是由于页面上的JavaScript。使用(Chrome中的Ctrl-U)检查视图源代码。Chrome工具并不总是与html源代码对齐。可能是由于页面上的JavaScript