Web scraping 从谷歌搜索结果中抓取数据可以吗?
我想使用curl从Google获取结果,以检测潜在的重复内容。Web scraping 从谷歌搜索结果中抓取数据可以吗?,web-scraping,Web Scraping,我想使用curl从Google获取结果,以检测潜在的重复内容。 有被谷歌禁止的高风险吗?当你超过一定数量的请求时,谷歌最终会阻止你的IP 谷歌不允许在他们的TOS中自动访问,所以如果你接受他们的条款,你就会违反他们的条款 也就是说,据我所知,谷歌没有对刮刀提起诉讼。 甚至微软也用它为谷歌的搜索引擎Bing提供了动力 有两个选项可以抓取谷歌搜索结果: 1)使用他们的API 2020年更新:谷歌(再次)重新发布了以前的API,并发布了新的API 价格和新的限制。现在 你可以 以每月1500美元的价格
有被谷歌禁止的高风险吗?当你超过一定数量的请求时,谷歌最终会阻止你的IP 谷歌不允许在他们的TOS中自动访问,所以如果你接受他们的条款,你就会违反他们的条款 也就是说,据我所知,谷歌没有对刮刀提起诉讼。 甚至微软也用它为谷歌的搜索引擎Bing提供了动力 有两个选项可以抓取谷歌搜索结果: 1)使用他们的API 2020年更新:谷歌(再次)重新发布了以前的API,并发布了新的API 价格和新的限制。现在 你可以 以每月1500美元的价格每天查询多达10k个结果,甚至更多 是不允许的,并且结果不是正常显示的结果 搜索
- 您可以每小时发出大约40个请求,但限制在什么范围内 他们给了你,如果你想追踪排名的话,这并不是很有用 位置或真实用户将看到的内容。你不是这样的人 允许收集
- 如果你想要更多的API请求,你需要付费
- 每小时60个请求每年花费2000美元,更多查询需要 定制交易
- 棘手的部分来了。可以刮取正常的结果页。 谷歌不允许这样做
- 如果你以高于每小时8次(更新自15次)关键字请求的速度进行风险检测,则高于10次/小时(更新自20次)将使你无法获得我的经验
- 通过使用多个IP,您可以提高速率,因此使用100个IP地址,您可以每小时抓取多达1000个请求。(每天24k)(更新)
- 有一个用PHP编写的开源搜索引擎 它允许可靠地抓取Google,正确地解析结果,并管理IP地址、延迟等。 因此,如果您可以使用PHP,它将是一个很好的kickstart,否则代码对于了解如何完成它仍然很有用
- 最近,我的一位客户有一个巨大的搜索引擎抓取需求,但这不是“持续的”,更像是每月一次巨大的刷新。
在这种情况下,我找不到一个自制的“经济”解决方案。
我改用了在的服务。 他们还提供开放源代码,目前运行良好(刷新期间每小时数千个结果页) - 缺点是这种服务意味着您的解决方案“绑定”到一个专业供应商,优点是它比我评估的其他选项便宜得多(在我们的案例中更快)
- 减少对一家公司依赖的一种选择是同时采用两种方法。使用刮片服务作为主要数据源,并在需要时返回到基于代理的解决方案,如2)所述