Web crawler 如何防止同一url返回不同的响应?

Web crawler 如何防止同一url返回不同的响应?,web-crawler,scrapy,scrapy-spider,Web Crawler,Scrapy,Scrapy Spider,现在我正在尝试使用scrapy来抓取一个网站 我发现,给定相同的url,请求的响应可能会不同。 这似乎是该网站的两个版本。我还使用了相同的用户代理 是否有一些方法可以让反应保持一致? 或者我只能分析每个响应的版本,然后使用不同的XPath提取项目 scrapy shell中的response.headers如下所示: 这完全取决于网站,而不是网站。在这种情况下,可以检查响应.标题,特别是上次修改的标题,该标题应返回上次修改的日期信息。谢谢您的建议。现在我有点困惑。“response.heade

现在我正在尝试使用scrapy来抓取一个网站

我发现,给定相同的url,请求的响应可能会不同。 这似乎是该网站的两个版本。我还使用了相同的用户代理

是否有一些方法可以让反应保持一致? 或者我只能分析每个响应的版本,然后使用不同的XPath提取项目

scrapy shell中的response.headers如下所示:


这完全取决于网站,而不是网站。在这种情况下,可以检查
响应.标题
,特别是上次修改的
标题,该标题应返回上次修改的日期信息。

谢谢您的建议。现在我有点困惑。“response.headers”返回:“{…,”X-Ua-Compatible“:”IE=8'}”,但当我查看响应时,我可以在“head”部分中看到,“”和此元信息在所有版本的响应中都是相同的。我不知道这是否是问题所在。第一个标题与元信息不同,一些站点无法返回上次修改的
信息。是的,此站点没有上次修改的
信息。
{'Cache-Control': 'max-age=0, private, must-revalidate',
 'Content-Type': 'text/html; charset=utf-8',
 'Date': 'Fri, 04 Dec 2015 18:56:59 GMT',
 'Server': 'nginx/1.6.2',
 'Set-Cookie': 'auth_token=hello; domain=www.medhelp.org; path=/; expires=Thu, 01-Jan-1970 00:00:00 GMT',
 'X-Rack-Cache': 'miss',
 'X-Request-Id': '70f23a01ac124fd58acc9e9e7bafb609',
 'X-Runtime': '0.150452',
 'X-Ua-Compatible': 'IE=8'}