如何修复416<；在scrapy python中获取错误_Python_Web Scraping_Scrapy

如何修复416<；在scrapy python中获取错误

python web-scraping scrapy

如何修复416<；在scrapy python中获取错误,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,大家好，我想清除所有的名字，但是当我运行我的代码时，我遇到了以下错误： 2019-08-25 23:08:10 [scrapy.core.engine] DEBUG: Crawled (416) <GET https://www.manta.com/distil_r_blocked.html?requestId=e243a58b-d46d-4d12- HTTP status code is not handled or n ot allowed 默认情况下，仅当状态代码在200-300

大家好，我想清除所有的名字，但是当我运行我的代码时，我遇到了以下错误：

2019-08-25 23:08:10 [scrapy.core.engine] DEBUG: Crawled (416) <GET https://www.manta.com/distil_r_blocked.html?requestId=e243a58b-d46d-4d12-

HTTP status code is not handled or n
ot allowed

默认情况下，仅当状态代码在200-300范围内时，scrapy才能成功响应

对于416响应的工作，请使用

class MySpider(CrawlSpider):
    handle_httpstatus_list = [416]

然后你就可以处理这个问题了

if response.status == 416:
    # write code what you need

在您的情况下，网站使用distilnetworks进行保护，通常这类网站不喜欢刮除它们。
我认为您需要阅读本网站关于刮削的规则，他们允许或不允许刮削。

当然，存在不同的绕过服务（人们在评论中给你写信）保护，但需要记住道德和法律。

该网站有gdpr检查（不知道这是否适用于你）。如果您有一个阻止cookie设置的设置，那么这可能是其中的一部分。Manta使用Distil作为CDN，它们有一些DDOS防护，您不会用scrapy来解决。@pguardiario那么我能知道什么？@QHarr我能知道什么？我想一些验证码解算器（2captcha）现在正在销售Distil会话，这是你最好的选择。无论如何，你需要在你的项目中添加

handle\u httpstatus\u list=[416]

，如果响应

if response.status==416:

-然后编写你需要的代码。你能在答案中提及吗，这样我更容易理解！你有写保护旁路吗<代码>#编写您需要的代码-而不是这个？如果我想报废

if response.status == 416:
    # write code what you need