Scrapy 使用刮痧时如何避免禁令

Scrapy 使用刮痧时如何避免禁令,scrapy,python-3.5,Scrapy,Python 3.5,我经常被禁止访问一个网站,我在scrapy中设置了download_delay=10,我尝试了一个包,然后我尝试了实现tor和polipo,根据这个,配置是可以的。但在再次跑了1/2次之后,我被禁止了!有人能帮我吗 注意:我也想试试,但无法激活 单击时使用延迟 非tor-来自同一地址的所有连接-不正确,在多次访问后轮换代理 查看这篇文章-你应该看看上面写的内容 在处理这类问题时,这里有一些要记住的提示 地点: 从浏览器中的已知用户代理池中旋转用户代理 (谷歌搜索以获得他们的名单) 禁用Coo

我经常被禁止访问一个网站,我在scrapy中设置了download_delay=10,我尝试了一个包,然后我尝试了实现tor和polipo,根据这个,配置是可以的。但在再次跑了1/2次之后,我被禁止了!有人能帮我吗

注意:我也想试试,但无法激活

  • 单击时使用延迟
  • 非tor-来自同一地址的所有连接-不正确,在多次访问后轮换代理

  • 查看这篇文章-

    你应该看看上面写的内容

    在处理这类问题时,这里有一些要记住的提示 地点:

    • 从浏览器中的已知用户代理池中旋转用户代理 (谷歌搜索以获得他们的名单)

    • 禁用Cookie(请参阅 Cookie_已启用),因为某些站点可能会使用Cookie来发现机器人行为

    • 使用下载延迟(2或更高)。请参阅下载延迟设置

    • 如果 可能的话,使用谷歌缓存获取页面,而不是点击 站点直接使用一个轮换IP池。例如,自由职业者 项目或付费服务,如ProxyMesh

    • 使用高度分散的 downloader可以在内部绕过禁令,所以您可以只关注 解析干净的页面。这种下载程序的一个例子是Crawlera


    你需要提供更多的信息,比如你正在爬网的网站,爬网时你在做什么,等等。如果网站禁止你,你很可能在做它不喜欢的事情,或者它发现你违反了它的ToS。如果没有更多的信息,这里没有人能告诉你为什么你被禁止。正确的处理方法是与网站所有者交谈并询问他们。如果您违反了他们的ToS,他们有权限制您的访问。我们对此无能为力,在我看来,我们也不应该帮助你回避任何问题。我投票结束这个问题,因为可能的原因是违反了网站的ToS,OP应该首先与网站所有者沟通,以确定是否有正确的方法从他们的网站获取数据。实际上,我正试图从rarbg.to中获取数据,只是为了学习!只是想提取一些数据,如电影标题,大小,质量等,这样我就可以建立一个应用程序,通知我当任何新电影的imdb评级超过7真的谢谢!你能给我一些关于旋转IP的教程或示例项目吗,我真的被困在这里了!一个看起来不错。如果它帮助你,考虑接受答案。