下载程序/异常\类型\计数/scrapy.exceptions.IgnoreRequest

下载程序/异常\类型\计数/scrapy.exceptions.IgnoreRequest,exception,scrapy,web-crawler,middleware,scrapy-spider,Exception,Scrapy,Web Crawler,Middleware,Scrapy Spider,我和scrapy一起工作,我可以抓取许多域。但是,在抓取某些域时,我会遇到以下例外情况: downloader/exception_type_count/scrapy.exceptions.IgnoreRequest 我搜索了这个,结果表明我应该在设置中设置robots_obe=false。它已设置,再次发生此异常! 有什么想法吗 不仅robotstxt中间件会引发IgnoreRequest。很可能是重定向中间件在达到最大重定向时引发IgnoreRequest,这对于具有循环重定向的页面是典型

我和scrapy一起工作,我可以抓取许多域。但是,在抓取某些域时,我会遇到以下例外情况:

downloader/exception_type_count/scrapy.exceptions.IgnoreRequest
我搜索了这个,结果表明我应该在设置中设置robots_obe=false。它已设置,再次发生此异常!
有什么想法吗

不仅robotstxt中间件会引发IgnoreRequest。很可能是重定向中间件在达到最大重定向时引发IgnoreRequest,这对于具有循环重定向的页面是典型的。

谢谢您的回答。请注意,Scrapy有时可以抓取此类域,有时则不能!我是否应该检查或编辑我的scrapy设置/代码中的某些内容以避免IgnoreRequest异常?或者此异常与域的服务器相关,不能通过代码/设置解决?它应该完全与服务器端相关,引发IgnoreRequest的唯一标准中间件是Robotstxt、HttpCache和Redirect。如果禁用RobotstxtMiddleware set ROBOTSTXT_OBEY=False或将其从设置中删除,因为它的默认值为False,并且不使用HttpCache,那么唯一的原因是服务器上的循环重定向。