下载程序/异常\类型\计数/scrapy.exceptions.IgnoreRequest_Exception_Scrapy_Web Crawler_Middleware_Scrapy Spider

下载程序/异常\类型\计数/scrapy.exceptions.IgnoreRequest

exception scrapy web-crawler

下载程序/异常\类型\计数/scrapy.exceptions.IgnoreRequest,exception,scrapy,web-crawler,middleware,scrapy-spider,Exception,Scrapy,Web Crawler,Middleware,Scrapy Spider,我和scrapy一起工作，我可以抓取许多域。但是，在抓取某些域时，我会遇到以下例外情况： downloader/exception_type_count/scrapy.exceptions.IgnoreRequest 我搜索了这个，结果表明我应该在设置中设置robots_obe=false。它已设置，再次发生此异常！有什么想法吗不仅robotstxt中间件会引发IgnoreRequest。很可能是重定向中间件在达到最大重定向时引发IgnoreRequest，这对于具有循环重定向的页面是典型

我和scrapy一起工作，我可以抓取许多域。但是，在抓取某些域时，我会遇到以下例外情况：

downloader/exception_type_count/scrapy.exceptions.IgnoreRequest

我搜索了这个，结果表明我应该在设置中设置robots_obe=false。它已设置，再次发生此异常！

有什么想法吗

不仅robotstxt中间件会引发IgnoreRequest。很可能是重定向中间件在达到最大重定向时引发IgnoreRequest，这对于具有循环重定向的页面是典型的。

谢谢您的回答。请注意，Scrapy有时可以抓取此类域，有时则不能！我是否应该检查或编辑我的scrapy设置/代码中的某些内容以避免IgnoreRequest异常？或者此异常与域的服务器相关，不能通过代码/设置解决？它应该完全与服务器端相关，引发IgnoreRequest的唯一标准中间件是Robotstxt、HttpCache和Redirect。如果禁用RobotstxtMiddleware set ROBOTSTXT_OBEY=False或将其从设置中删除，因为它的默认值为False，并且不使用HttpCache，那么唯一的原因是服务器上的循环重定向。