如何修复416<;在scrapy python中获取错误

如何修复416<;在scrapy python中获取错误,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,大家好,我想清除所有的名字,但是当我运行我的代码时,我遇到了以下错误: 2019-08-25 23:08:10 [scrapy.core.engine] DEBUG: Crawled (416) <GET https://www.manta.com/distil_r_blocked.html?requestId=e243a58b-d46d-4d12- HTTP status code is not handled or n ot allowed 默认情况下,仅当状态代码在200-300

大家好,我想清除所有的名字,但是当我运行我的代码时,我遇到了以下错误:

2019-08-25 23:08:10 [scrapy.core.engine] DEBUG: Crawled (416) <GET https://www.manta.com/distil_r_blocked.html?requestId=e243a58b-d46d-4d12-

HTTP status code is not handled or n
ot allowed

默认情况下,仅当状态代码在200-300范围内时,scrapy才能成功响应

对于416响应的工作,请使用

class MySpider(CrawlSpider):
    handle_httpstatus_list = [416]
然后你就可以处理这个问题了

if response.status == 416:
    # write code what you need
在您的情况下,网站使用distilnetworks进行保护,通常这类网站不喜欢刮除它们。
我认为您需要阅读本网站关于刮削的规则,他们允许或不允许刮削。

当然,存在不同的绕过服务(人们在评论中给你写信)保护,但需要记住道德和法律。

该网站有gdpr检查(不知道这是否适用于你)。如果您有一个阻止cookie设置的设置,那么这可能是其中的一部分。Manta使用Distil作为CDN,它们有一些DDOS防护,您不会用scrapy来解决。@pguardiario那么我能知道什么?@QHarr我能知道什么?我想一些验证码解算器(2captcha)现在正在销售Distil会话,这是你最好的选择。无论如何,你需要在你的项目中添加
handle\u httpstatus\u list=[416]
,如果响应
if response.status==416:
-然后编写你需要的代码。你能在答案中提及吗,这样我更容易理解!你有写保护旁路吗<代码>#编写您需要的代码-而不是这个?如果我想报废
if response.status == 416:
    # write code what you need