Http 如何绕过这一点;“异常交通”;在网站上检测?

Http 如何绕过这一点;“异常交通”;在网站上检测?,http,web-scraping,httprequest,captcha,recaptcha,Http,Web Scraping,Httprequest,Captcha,Recaptcha,出于道德原因,我想指出,这里提到的网站内容完全是免费提供的,不需要注册,我没有违反任何规则,也没有违反任何法律 我通常为私人使用开发web scraper(我的意思是没有经济预期),原因之一是:它每天为我节省大量时间 但是,对于我正在抓取的当前站点,当我连续请求他们的30个URL时,服务器会将我的连接标识为“异常流量”,并显示一个Google的recaptcha: 我想知道我应该实现什么方法来避免重述和仍然重定向URL而没有问题 唯一的条件是:不使用代理/VPN 这是我从http头中捕获的内容

出于道德原因,我想指出,这里提到的网站内容完全是免费提供的,不需要注册,我没有违反任何规则,也没有违反任何法律

我通常为私人使用开发web scraper(我的意思是没有经济预期),原因之一是:它每天为我节省大量时间

但是,对于我正在抓取的当前站点,当我连续请求他们的30个URL时,服务器会将我的连接标识为“异常流量”,并显示一个Google的recaptcha:

我想知道我应该实现什么方法来避免重述和仍然重定向URL而没有问题

唯一的条件是:不使用代理/VPN

这是我从http头中捕获的内容:

请求:

GET /rd/TdcfliKN0j9dT-bIMpo-GynUNR63kfnDsJn_YOP8uurTmlvy7C3oKnJtb1Mi-CI_fGsHJ72O49dM1IzXDCPNuPf3OfEb21w5hkGdV8ny__2u2pKo6yBgMbPCdAF-ti1uomfp3mWcB_K9M8PitpDMkg../x-Mad-VYWQz_lpphY5LN_fnkid__zqmI-i5AYJgziAl93kYhdvtlwVijRDmSGIifl-ouZki2eTWit7zi38raKiYkKtPqKSWftIfwFqIHD0bXua4z_LcrHQOnKwCWSNp0kJKcowVQSza8XJ88-TWJfA.. HTTP/1.1
Host    r.plixid.com
User-Agent  Mozilla/5.0 (Windows NT 6.3; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0
Accept  text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding gzip, deflate
Referer http://plixid.com/2015/12/29/vinter-sleep-die-cold-winter-2015-mp3/
Cookie  __cfduid=...; PHPSESSID=...; _ga=...; _gat=1
DNT 1
Connection  keep-alive
HTTP/1.1 301 Moved Permanently
Date    Tue, 29 Dec 2015 11:42:47 GMT
Content-Type    text/html; charset=UTF-8
Transfer-Encoding   chunked
Connection  keep-alive
X-Powered-By    PHP/5.5.9-1ubuntu4.11
Cache-Control   private, must-revalidate
Location    http://novafile.com/0ubisyq06l8s
Pragma  no-cache
Expires -1
Server  cloudflare-nginx
CF-RAY  25c53e59f4d70db7-MAD
响应:

GET /rd/TdcfliKN0j9dT-bIMpo-GynUNR63kfnDsJn_YOP8uurTmlvy7C3oKnJtb1Mi-CI_fGsHJ72O49dM1IzXDCPNuPf3OfEb21w5hkGdV8ny__2u2pKo6yBgMbPCdAF-ti1uomfp3mWcB_K9M8PitpDMkg../x-Mad-VYWQz_lpphY5LN_fnkid__zqmI-i5AYJgziAl93kYhdvtlwVijRDmSGIifl-ouZki2eTWit7zi38raKiYkKtPqKSWftIfwFqIHD0bXua4z_LcrHQOnKwCWSNp0kJKcowVQSza8XJ88-TWJfA.. HTTP/1.1
Host    r.plixid.com
User-Agent  Mozilla/5.0 (Windows NT 6.3; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0
Accept  text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding gzip, deflate
Referer http://plixid.com/2015/12/29/vinter-sleep-die-cold-winter-2015-mp3/
Cookie  __cfduid=...; PHPSESSID=...; _ga=...; _gat=1
DNT 1
Connection  keep-alive
HTTP/1.1 301 Moved Permanently
Date    Tue, 29 Dec 2015 11:42:47 GMT
Content-Type    text/html; charset=UTF-8
Transfer-Encoding   chunked
Connection  keep-alive
X-Powered-By    PHP/5.5.9-1ubuntu4.11
Cache-Control   private, must-revalidate
Location    http://novafile.com/0ubisyq06l8s
Pragma  no-cache
Expires -1
Server  cloudflare-nginx
CF-RAY  25c53e59f4d70db7-MAD
我试过什么

  • 使用随机

  • 使用带有随机ipv4和代理的标头

  • 发送禁用的标题(0)

  • 执行下一个请求的随机等待间隔为3到10秒

我发现了什么

  • 从一个请求到另一个请求,非常长的不可行等待间隔大约10分钟,解决了这个问题

  • 连续执行29个请求,然后等待10分钟执行第30个请求并不能解决问题


您试图做一些网站不希望做的事情。你要合乎道德。我建议你写下你的情况,并直接向网站所有者。我看到plixid.com有一个“联系我们”按钮(页面右上角)


人们通常都是通情达理的。如果你有一个很好的理由提出你的请求,并且他们可以毫不费力地做出更改,他们很可能会帮助你。

我仍然找不到一个规范的“如何编写网页刮板”问答,这里有这样一个问题:让你的代码像人一样运行。你必须记住,那些建立网站的人不希望他们的内容被刮掉,所以任何让你看起来像机器人的东西都可以被确定并用来对付你

  • 这意味着首先,您的用户代理必须像浏览器一样工作。这就是像浏览器一样正确地填充请求头,读取整个响应并对其执行操作(如果它包含HTML)

  • 如果响应设置cookie,则存储这些cookie并在后续请求中使用它们

  • 如果主文档链接到所接收文档中的更多资源(同样,如果是HTML),那么也获取这些资源

  • 如果其中一个资源(嵌入HTML或从另一个文件链接)是脚本,则可能需要执行该脚本。有些站点使用pingback脚本,有些使用输入检测。没有pingback,没有鼠标事件:你是一个机器人

  • 明智地限制您的请求。一秒钟内有五个请求是可疑的,但每五秒钟就有一个请求是可疑的

所有这些都是微不足道的。如果你能想到它,网站(或图书馆)的开发者也会想到它。这通常是一个反复试验的问题。没有银弹,因为每个站点都可以在它们使用的库中拥有自定义代码或不同的检测设置


话虽如此,为了说明这个故事的寓意:如果一个网站确实表现出对被刮的丝毫不情愿,不要刮它

似乎该网站不想要机器人。你用的是机器人。网站检测到了它。在我看来,询问如何规避这些似乎是不道德的,违反了他们的规则。看,你在试图打破这里的规则。验证码的存在是有原因的——这是服务器告诉你自动抓取是他们不希望你做的事情的方式。我想这可能是值得一试的,仅仅因为我是黑帽…@nvoigt和J。。。感谢您的评论,但是在webbrowser中打开/重定向同一url 30次(在Firefox中测试)也会出现同样的问题。我投票将这个问题作为离题题题来结束,因为它正在寻求有关blackhat活动的帮助。@ElektroStudios我认为您完全无法理解服务器在做什么以及为什么。它通过IP或其他方式阻止任何过度使用。如果你实际上是一个人,浏览和使用该网站,那么你可以填写验证码并继续。如果你不是人类(即机器人),那么你就被卡住了。这就是重点——阻止机器人。一个人在最坏的情况下并没有一个机器人那么坏。更讽刺的是,你试图从盗版音乐网站窃取带宽。。。无论如何,这个问题需要关闭和删除。谢谢你的回答,我真的没有试图暴露我与他们的问题,因为我认为他们会忽略我的需要(只为1个用户的需要在网站上进行更改?,当然他们认为我很愚蠢)。但我要试试,真的。