Search 为什么谷歌会实时抓取一些网站?

Search 为什么谷歌会实时抓取一些网站?,search,seo,Search,Seo,我在codeplex上发布了一个源代码,让我惊讶的是,它在13小时内出现在google上。另外,当我在codeplex上对我的帐户进行一些更改时,这些更改在几分钟内就反映在谷歌上。那是怎么发生的?谷歌是否特别重视Codeplex、Stackoverflow等网站,以使其搜索结果快速出现在搜索结果中?如果不是这么快的话,我是否可以采取一些特殊的步骤让谷歌抓取我的网站更快一些 可能(而且你必须是一个内幕人士才能知道……)如果他们发现从一个爬网到另一个爬网的变化足够大,他们会缩小爬网之间的窗口,直到-

我在codeplex上发布了一个源代码,让我惊讶的是,它在13小时内出现在google上。另外,当我在codeplex上对我的帐户进行一些更改时,这些更改在几分钟内就反映在谷歌上。那是怎么发生的?谷歌是否特别重视Codeplex、Stackoverflow等网站,以使其搜索结果快速出现在搜索结果中?如果不是这么快的话,我是否可以采取一些特殊的步骤让谷歌抓取我的网站更快一些

可能(而且你必须是一个内幕人士才能知道……)如果他们发现从一个爬网到另一个爬网的变化足够大,他们会缩小爬网之间的窗口,直到-像流行博客/新闻等网站每隔几分钟就被爬网一次。

对于像stackoverflow.com这样的流行网站,索引的出现频率比正常情况更高,你可以通过搜索刚问过的问题来发现这一点。

谷歌更喜欢某些网站而不是其他网站。涉及到很多神奇的规则,在CodePlex和Stackoverflow的案例中,我们甚至可以假设他们已经手动将ben放入了一些白名单。然后谷歌订阅这些站点的RSS提要,并在有新RSS帖子时对其进行爬网


示例:我博客上的帖子在几分钟内就包含在索引中,但如果我连续几周不发布,谷歌只会每周左右路过一次。

实际上。。。受欢迎的网站有一些他们将分享给谷歌的提要。网站会更新这些提要,当提要发生变化时,谷歌会更新其索引。对于排名良好的其他网站,搜索引擎爬行的频率更高,只要有变化。诚然,这不是公共知识,即使是热门网站,也无法保证新发布的数据何时出现在索引中。

是搜索引擎战争中最新的流行语和战场之一。谷歌宣布的整合就是这种新的关注超新鲜内容的好例子

合并新内容是一项真正的技术挑战,对于谷歌这样的公司来说,这是因为必须抓取文档,将它们合并到索引中(索引分布在数百台/数千台机器上),然后以某种方式确定新内容是否与给定查询相关。记住,因为我们正在为全新的文档和推文编制索引,所以这些东西不会有很多入站链接,这是提高PageRank的典型方式

让谷歌/雅虎/必应(Google/Yahoo/Bing)更频繁地抓取你的网站的最好方法是拥有一个内容更新频繁、流量可观的网站。(所有这些公司都知道网站有多受欢迎,并将投入更多资源为stackoverflow、nytimes和amazon等网站编制索引)


你可以做的另一件事是确保你的robots.txt不会阻止爬行器尽可能多地爬行你的站点,并确保向google/bing hoo提交一个链接,这样他们就会有你的URL列表。但要小心你的愿望:

即使是我自己的博客也会实时出现(虽然是pagerank 3),所以我想这没什么大不了的:)

例如,我刚刚发布了这个,它出现在谷歌至少37分钟前(可能是实时的,因为我以前没有检查过)
这并不广为人知,但有些网页上有特别美味的玉米,这比其他网页更容易引起鸽子的注意

也许你是对的。这是一件令人惊讶的事情,知道有些网站被爬网得那么快!他们通过在网络中寻找员工来赚钱。他们必须注意快速更新的网站。。。或者其他搜索引擎将接手。@Bootcamp:想想谷歌,它的架构和速度是如此令人难以置信,你不可能想象他们软件中的所有工作。但实时也会制造更多的噪音和信息过载。