Scrapy：如何排除重定向404_Scrapy

Scrapy：如何排除重定向404

scrapy

Scrapy：如何排除重定向404,scrapy,Scrapy,我正在抓取一个特定的URL集：例如 example.com/job/1 example.com/job/3 example.com/job/4 example.com/job/31 example.com/job/50 问题是，我不知道哪些已经被删除，如果我决定从1爬网到10000，我会得到很多重定向到找不到的页面，例如 example.com/job-not-found.html 我使用while循环来定义起始URL，但现在我希望Scrapy从解析方法中排除所有重定向到404页面的URL

我正在抓取一个特定的URL集：例如

example.com/job/1
example.com/job/3
example.com/job/4
example.com/job/31
example.com/job/50

问题是，我不知道哪些已经被删除，如果我决定从1爬网到10000，我会得到很多重定向到找不到的页面，例如

example.com/job-not-found.html

我使用while循环来定义起始URL，但现在我希望Scrapy从解析方法中排除所有重定向到404页面的URL

目前，我得到了很多属于404页面的不必要的h1标记，因为它们仍然在解析。

Scrapy

默认情况下忽略404响应，这意味着您以某种方式禁用了它，请在

设置

中检查您的蜘蛛代码中的以下属性，或者可能通过

元

参数传递它：

```
handle\u httpstatus\u列表
```
```
handle\u httpstatus\u all
```
```
HTTPERROR\u允许的代码
```
```
HTTPERROR\u ALLOW\u ALL
```

这些变量中的任何一个都应该为True，或者应该是包含

状态的列表

如果您的情况不是这样，那么您可能已经禁用了

HttpErrorMiddleware

中间件