C# 刮谷歌';是否所有搜索结果都基于某些条件?

C# 刮谷歌';是否所有搜索结果都基于某些条件?,c#,web-crawler,web-scraping,C#,Web Crawler,Web Scraping,我正在制作我的地图,我需要得到newegg.com的完整地图 我可以尝试直接废弃NE(这违反了NE的政策),但他们有许多产品无法通过直接NE搜索获得,只能通过google.com搜索获得;我也需要这些链接 以下是返回16mil结果的搜索字符串: 我希望我的刮板去所有的结果和日志超链接到所有这些结果。 我可以删除谷歌搜索结果中的所有链接,但谷歌对每个查询的页面限制为100页——1000个结果,谷歌对这种方法不满意 我是新来的;你能给我指点正确的方向吗?是否有任何工具/方法可以帮助我实现目标 我是

我正在制作我的地图,我需要得到newegg.com的完整地图

我可以尝试直接废弃NE(这违反了NE的政策),但他们有许多产品无法通过直接NE搜索获得,只能通过google.com搜索获得;我也需要这些链接

以下是返回16mil结果的搜索字符串:

我希望我的刮板去所有的结果和日志超链接到所有这些结果。 我可以删除谷歌搜索结果中的所有链接,但谷歌对每个查询的页面限制为100页——1000个结果,谷歌对这种方法不满意

我是新来的;你能给我指点正确的方向吗?是否有任何工具/方法可以帮助我实现目标

我是新来的;你能给我指点正确的方向吗? 是否有任何工具/方法可以帮助我实现目标 进球

谷歌采取了很多措施来阻止你抓取他们的网页,我不是说仅仅要求你遵守他们的robots.txt。我不同意他们的道德,也不同意他们的t&C,甚至不同意他们推出的“简化”版本(但这是另一个问题)

如果你想被人看到,那么你必须让谷歌抓取你的页面然而,如果你想在谷歌上爬行,那么你必须跳过一些主要的障碍!也就是说,你必须得到一堆代理,这样你就可以在他们对你的“活动”产生怀疑时通过限速和302s+验证码页面

尽管对谷歌的T&C感到十分恼火,但我不建议你违反它但是,如果您确实需要获取数据,那么您可以获取一个大的代理,将它们加载到队列中,并在每次需要获取页面时从队列中拉出一个代理。如果代理有效,则将其放回队列中;否则,放弃代理。甚至可以为每个失败的代理指定一个计数器,如果超过某个失败次数,则放弃该计数器

我是新来的;你能给我指点正确的方向吗? 是否有任何工具/方法可以帮助我实现目标 进球

谷歌采取了很多措施来阻止你抓取他们的网页,我不是说仅仅要求你遵守他们的robots.txt。我不同意他们的道德,也不同意他们的t&C,甚至不同意他们推出的“简化”版本(但这是另一个问题)

如果你想被人看到,那么你必须让谷歌抓取你的页面然而,如果你想在谷歌上爬行,那么你必须跳过一些主要的障碍!也就是说,你必须得到一堆代理,这样你就可以在他们对你的“活动”产生怀疑时通过限速和302s+验证码页面


尽管对谷歌的T&C感到十分恼火,但我不建议你违反它但是,如果您确实需要获取数据,那么您可以获取一个大的代理,将它们加载到队列中,并在每次需要获取页面时从队列中拉出一个代理。如果代理有效,则将其放回队列中;否则,放弃代理。甚至可以为每个失败的代理提供一个计数器,如果它超过某个失败次数,则放弃它。

我没有尝试过,但您可以使用它。当然,每天搜索100次后,它就开始花钱了。我猜他们一定是在做生意;p

我没有试过,但你可以用。当然,每天搜索100次后,它就开始花钱了。我猜他们一定是在做生意;p

可能有点晚了,但我认为值得一提的是,你可以从专业的角度对谷歌进行评估,而不会造成问题

事实上,据我所知,它不会对谷歌构成任何威胁。
如果你没有经验,我会很高兴,但我不知道有哪一个案件会产生法律后果,我总是关注这个话题

可能是几年前微软为了给Bing提供动力而刮刮谷歌的时候,发生了最大的刮刮案例之一。谷歌能够通过放置真实世界中不存在的虚假结果来证明这一点,而Bing突然接受了这些结果。
谷歌点名羞辱了他们,就我记忆所及,这就是所发生的一切

使用API很少是真正的用途,即使是少量的结果,使用它也要花很多钱,而且免费的数量相当少(禁令前每小时40次查询)。
另一个缺点是API没有反映真实的搜索结果,在您的情况下,这可能不是一个问题,但在大多数情况下,人们希望获得真实的排名位置

现在,如果你不接受谷歌的TOS或忽略它(当他们在创业时刮伤你时,他们并不关心你的TOS),你可以走另一条路。
模拟真实用户并直接从SERP获取数据

这里的线索是每个IP地址每小时发送大约10个请求(可以增加到20个)(是的,您使用多个IP)。在过去的几年里,这一数额已经证明不会对谷歌造成任何问题。
使用缓存、数据库、ip轮换管理来避免超出要求的频繁访问。
IP地址需要是干净的、非共享的,如果可能的话,还需要没有滥用历史记录。
最初建议的代理列表将使主题复杂化,因为您收到的IP不稳定、不可靠,其使用、共享和历史记录可疑

有一个开放源码的PHP项目,其中包含了您需要启动的所有功能,我将其用于我的工作,现在运行了几年,没有任何问题。 这是一个已完成的项目,主要用于作为项目的自定义基础,但也可以独立运行

另外,PHP也是一个不错的选择,我最初对此表示怀疑,但我将PHP(5)作为后台进程运行了两年,没有一次中断。
对于这样一个团队来说,性能很好