Web scraping 从谷歌搜索结果中抓取数据可以吗?

Web scraping 从谷歌搜索结果中抓取数据可以吗?,web-scraping,Web Scraping,我想使用curl从Google获取结果,以检测潜在的重复内容。 有被谷歌禁止的高风险吗?当你超过一定数量的请求时,谷歌最终会阻止你的IP 谷歌不允许在他们的TOS中自动访问,所以如果你接受他们的条款,你就会违反他们的条款 也就是说,据我所知,谷歌没有对刮刀提起诉讼。 甚至微软也用它为谷歌的搜索引擎Bing提供了动力 有两个选项可以抓取谷歌搜索结果: 1)使用他们的API 2020年更新:谷歌(再次)重新发布了以前的API,并发布了新的API 价格和新的限制。现在 你可以 以每月1500美元的价格

我想使用curl从Google获取结果,以检测潜在的重复内容。
有被谷歌禁止的高风险吗?

当你超过一定数量的请求时,谷歌最终会阻止你的IP

谷歌不允许在他们的TOS中自动访问,所以如果你接受他们的条款,你就会违反他们的条款

也就是说,据我所知,谷歌没有对刮刀提起诉讼。 甚至微软也用它为谷歌的搜索引擎Bing提供了动力

有两个选项可以抓取谷歌搜索结果:

1)使用他们的API

2020年更新:谷歌(再次)重新发布了以前的API,并发布了新的API 价格和新的限制。现在 你可以 以每月1500美元的价格每天查询多达10k个结果,甚至更多 是不允许的,并且结果不是正常显示的结果 搜索

  • 您可以每小时发出大约40个请求,但限制在什么范围内 他们给了你,如果你想追踪排名的话,这并不是很有用 位置或真实用户将看到的内容。你不是这样的人 允许收集

  • 如果你想要更多的API请求,你需要付费

  • 每小时60个请求每年花费2000美元,更多查询需要 定制交易

2)刮取正常结果页面

  • 棘手的部分来了。可以刮取正常的结果页。 谷歌不允许这样做
  • 如果你以高于每小时8次(更新自15次)关键字请求的速度进行风险检测,则高于10次/小时(更新自20次)将使你无法获得我的经验
  • 通过使用多个IP,您可以提高速率,因此使用100个IP地址,您可以每小时抓取多达1000个请求。(每天24k)(更新)
  • 有一个用PHP编写的开源搜索引擎 它允许可靠地抓取Google,正确地解析结果,并管理IP地址、延迟等。 因此,如果您可以使用PHP,它将是一个很好的kickstart,否则代码对于了解如何完成它仍然很有用
3)或者使用刮片服务(更新)

  • 最近,我的一位客户有一个巨大的搜索引擎抓取需求,但这不是“持续的”,更像是每月一次巨大的刷新。
    在这种情况下,我找不到一个自制的“经济”解决方案。
    我改用了在的服务。 他们还提供开放源代码,目前运行良好(刷新期间每小时数千个结果页)
  • 缺点是这种服务意味着您的解决方案“绑定”到一个专业供应商,优点是它比我评估的其他选项便宜得多(在我们的案例中更快)
  • 减少对一家公司依赖的一种选择是同时采用两种方法。使用刮片服务作为主要数据源,并在需要时返回到基于代理的解决方案,如2)所述

谷歌靠抓取世界各地的网站而蓬勃发展……因此,如果它“如此非法”,那么即使是谷歌也无法生存……当然,其他答案提到了谷歌减轻IP阻塞的方法。另一种避免验证码的方法可能是随机抓取(力试)……此外,我有一种感觉,如果我们提供新颖性或一些重要的数据处理,那么至少对我来说,这听起来不错……如果我们只是复制一个网站。。或者以某种方式阻碍其业务/品牌……那么这是不好的,应该避免……最重要的是……如果你是一家初创企业,那么没有人会与你抗争,因为这没有好处。。但是,如果你的整个前提是即使在你有资金的情况下,你也应该考虑更复杂的方法……替代API……最终……谷歌也会不断发布(或去除摩擦)它的API字段,所以您现在想要放弃的内容可能会出现在新的Google API发布路线图中。

上次我查看它时,我正在使用API通过Google进行搜索。如果我没记错的话,限制是2.500个请求/天。法律上不可能,但你可以在envato中使用谷歌和Bing搜索API试用这个小工具,它还提供400个请求的免费试用,还提供按需定制计划。你可以随时使用第三方解决方案为你这样做。这是一个免费试用的付费API。他们为您处理代理、解决验证码和解析所有丰富的结构化数据。我对这种解释的问题是,即使是少数共享同一IP的人,每小时也会大大超过20个请求。如果这就是全部,那么谷歌将基本上封锁所有经常大量使用计算机的小企业。被接受的答案也会有同样的问题。事实上,谷歌确实定期对NAT IP进行验证码拦截,我已经在多家公司工作过,验证码的案例也出现过好几次。我还应该澄清一下,我的意思是20个不同关键字的请求,只要你坚持使用相同的关键字,你就可以继续浏览结果页面。同样,封锁不会在一小时后发生,你实际上可以突破谷歌,但如果你继续以更高的速度点击它,你将被发送到验证码土地。谷歌似乎对突发事件很友好,但如果你坚持下去就不会了。试试看:)我已经在不止一个项目中使用过它(搜索引擎刮板和建议一)。它工作得相当完美。大约每年有一次,它会因为谷歌的变化而停止工作,通常会在几天内更新。@Joozty:“不要滥用我们的服务。例如,不要干扰我们的服务,或者尝试使用我们提供的界面和说明以外的方法访问我们的服务。”“如果您不遵守我们的条款或政策,或者如果我们正在调查可疑的不当行为,我们可能会暂停或停止向您提供我们的服务。”我不确定是否还涉及不同的TOS。根据TOS,它们是