Scrapy:如何排除重定向404

Scrapy:如何排除重定向404,scrapy,Scrapy,我正在抓取一个特定的URL集:例如 example.com/job/1 example.com/job/3 example.com/job/4 example.com/job/31 example.com/job/50 问题是,我不知道哪些已经被删除,如果我决定从1爬网到10000,我会得到很多重定向到找不到的页面,例如 example.com/job-not-found.html 我使用while循环来定义起始URL,但现在我希望Scrapy从解析方法中排除所有重定向到404页面的URL

我正在抓取一个特定的URL集:例如

example.com/job/1
example.com/job/3
example.com/job/4
example.com/job/31
example.com/job/50
问题是,我不知道哪些已经被删除,如果我决定从1爬网到10000,我会得到很多重定向到找不到的页面,例如

example.com/job-not-found.html
我使用while循环来定义起始URL,但现在我希望Scrapy从解析方法中排除所有重定向到404页面的URL


目前,我得到了很多属于404页面的不必要的h1标记,因为它们仍然在解析。

Scrapy
默认情况下忽略404响应,这意味着您以某种方式禁用了它,请在
设置
中检查您的蜘蛛代码中的以下属性,或者可能通过
参数传递它:

  • handle\u httpstatus\u列表
  • handle\u httpstatus\u all
  • HTTPERROR\u允许的代码
  • HTTPERROR\u ALLOW\u ALL
这些变量中的任何一个都应该为True,或者应该是包含
404
状态的列表

如果您的情况不是这样,那么您可能已经禁用了
HttpErrorMiddleware
中间件