Web crawler 为什么谷歌爬虫没有被CAPTCHA阻止?

Web crawler 为什么谷歌爬虫没有被CAPTCHA阻止?,web-crawler,Web Crawler,我在某个特定的网站www.example.com上运行我的爬虫程序。爬虫程序在大约100个条目后被验证码阻止。另一方面,当我进入谷歌搜索网站www.example.com时,我得到了100000条搜索结果,结果被谷歌正确缓存 我的问题是:为什么谷歌机器人没有被阻止,而我被阻止了?这是因为谷歌使用了数千个不同的IP,还是有其他一些把戏?一般来说,网站所有者对从搜索引擎获取流量感兴趣,所以他们甚至可能会选择谷歌 顺便问一下,您是否在查询之间使用超时?如果查询太频繁,您可能会被阻止,因为您为服务器创建

我在某个特定的网站www.example.com上运行我的爬虫程序。爬虫程序在大约100个条目后被验证码阻止。另一方面,当我进入谷歌搜索网站www.example.com时,我得到了100000条搜索结果,结果被谷歌正确缓存


我的问题是:为什么谷歌机器人没有被阻止,而我被阻止了?这是因为谷歌使用了数千个不同的IP,还是有其他一些把戏?

一般来说,网站所有者对从搜索引擎获取流量感兴趣,所以他们甚至可能会选择谷歌


顺便问一下,您是否在查询之间使用超时?如果查询太频繁,您可能会被阻止,因为您为服务器创建了太多的负载。

这很可能是因为网站所有者明确允许Google通过IP执行此操作