Web scraping 从谷歌搜索结果中抓取数据可以吗？_Web Scraping

Web scraping 从谷歌搜索结果中抓取数据可以吗？

web-scraping

Web scraping 从谷歌搜索结果中抓取数据可以吗？,web-scraping,Web Scraping,我想使用curl从Google获取结果，以检测潜在的重复内容。有被谷歌禁止的高风险吗？当你超过一定数量的请求时，谷歌最终会阻止你的IP 谷歌不允许在他们的TOS中自动访问，所以如果你接受他们的条款，你就会违反他们的条款也就是说，据我所知，谷歌没有对刮刀提起诉讼。甚至微软也用它为谷歌的搜索引擎Bing提供了动力有两个选项可以抓取谷歌搜索结果： 1）使用他们的API 2020年更新：谷歌（再次）重新发布了以前的API，并发布了新的API 价格和新的限制。现在你可以以每月1500美元的价格

我想使用curl从Google获取结果，以检测潜在的重复内容。

有被谷歌禁止的高风险吗？

当你超过一定数量的请求时，谷歌最终会阻止你的IP

谷歌不允许在他们的TOS中自动访问，所以如果你接受他们的条款，你就会违反他们的条款

也就是说，据我所知，谷歌没有对刮刀提起诉讼。甚至微软也用它为谷歌的搜索引擎Bing提供了动力

有两个选项可以抓取谷歌搜索结果：

1）使用他们的API

2020年更新：谷歌（再次）重新发布了以前的API，并发布了新的API 价格和新的限制。现在你可以以每月1500美元的价格每天查询多达10k个结果，甚至更多是不允许的，并且结果不是正常显示的结果搜索

您可以每小时发出大约40个请求，但限制在什么范围内他们给了你，如果你想追踪排名的话，这并不是很有用位置或真实用户将看到的内容。你不是这样的人允许收集
如果你想要更多的API请求，你需要付费
每小时60个请求每年花费2000美元，更多查询需要定制交易

2）刮取正常结果页面

棘手的部分来了。可以刮取正常的结果页。谷歌不允许这样做
如果你以高于每小时8次（更新自15次）关键字请求的速度进行风险检测，则高于10次/小时（更新自20次）将使你无法获得我的经验
通过使用多个IP，您可以提高速率，因此使用100个IP地址，您可以每小时抓取多达1000个请求。（每天24k）（更新）
有一个用PHP编写的开源搜索引擎它允许可靠地抓取Google，正确地解析结果，并管理IP地址、延迟等。因此，如果您可以使用PHP，它将是一个很好的kickstart，否则代码对于了解如何完成它仍然很有用

3）或者使用刮片服务（更新）

最近，我的一位客户有一个巨大的搜索引擎抓取需求，但这不是“持续的”，更像是每月一次巨大的刷新。
在这种情况下，我找不到一个自制的“经济”解决方案。
我改用了在的服务。他们还提供开放源代码，目前运行良好（刷新期间每小时数千个结果页）
缺点是这种服务意味着您的解决方案“绑定”到一个专业供应商，优点是它比我评估的其他选项便宜得多（在我们的案例中更快）
减少对一家公司依赖的一种选择是同时采用两种方法。使用刮片服务作为主要数据源，并在需要时返回到基于代理的解决方案，如2）所述

谷歌靠抓取世界各地的网站而蓬勃发展……因此，如果它“如此非法”，那么即使是谷歌也无法生存……当然，其他答案提到了谷歌减轻IP阻塞的方法。另一种避免验证码的方法可能是随机抓取（力试）……此外，我有一种感觉，如果我们提供新颖性或一些重要的数据处理，那么至少对我来说，这听起来不错……如果我们只是复制一个网站。。或者以某种方式阻碍其业务/品牌……那么这是不好的，应该避免……最重要的是……如果你是一家初创企业，那么没有人会与你抗争，因为这没有好处。。但是，如果你的整个前提是即使在你有资金的情况下，你也应该考虑更复杂的方法……替代API……最终……谷歌也会不断发布（或去除摩擦）它的API字段，所以您现在想要放弃的内容可能会出现在新的Google API发布路线图中。

上次我查看它时，我正在使用API通过Google进行搜索。如果我没记错的话，限制是2.500个请求/天。法律上不可能，但你可以在envato中使用谷歌和Bing搜索API试用这个小工具，它还提供400个请求的免费试用，还提供按需定制计划。你可以随时使用第三方解决方案为你这样做。这是一个免费试用的付费API。他们为您处理代理、解决验证码和解析所有丰富的结构化数据。我对这种解释的问题是，即使是少数共享同一IP的人，每小时也会大大超过20个请求。如果这就是全部，那么谷歌将基本上封锁所有经常大量使用计算机的小企业。被接受的答案也会有同样的问题。事实上，谷歌确实定期对NAT IP进行验证码拦截，我已经在多家公司工作过，验证码的案例也出现过好几次。我还应该澄清一下，我的意思是20个不同关键字的请求，只要你坚持使用相同的关键字，你就可以继续浏览结果页面。同样，封锁不会在一小时后发生，你实际上可以突破谷歌，但如果你继续以更高的速度点击它，你将被发送到验证码土地。谷歌似乎对突发事件很友好，但如果你坚持下去就不会了。试试看：）我已经在不止一个项目中使用过它（搜索引擎刮板和建议一）。它工作得相当完美。大约每年有一次，它会因为谷歌的变化而停止工作，通常会在几天内更新。@Joozty：“不要滥用我们的服务。例如，不要干扰我们的服务，或者尝试使用我们提供的界面和说明以外的方法访问我们的服务。”“如果您不遵守我们的条款或政策，或者如果我们正在调查可疑的不当行为，我们可能会暂停或停止向您提供我们的服务。”我不确定是否还涉及不同的TOS。根据TOS，它们是