Algorithm 谷歌爬行索引算法

Algorithm 谷歌爬行索引算法,algorithm,seo,indexing,web-crawler,Algorithm,Seo,Indexing,Web Crawler,我正在寻找一些关于谷歌如何抓取和索引内容的文档。我读了很多“轻松”的论文和文章,介绍你需要做些什么来提高排名,并确保你的内容被正确索引,但我正在寻找一些关于谷歌如何爬网和索引内容的更高级的技术文档 我想了解更多的事情: 谷歌在爬网时寻找什么元素:页面内容、URL格式、关键词、描述等 如何更新索引 基本上,我试图理解为什么有些页面被索引,而其他页面却没有,即使格式相似。为什么当我在整个域名上搜索时,只有10%的页面出现,即使我可以在我的服务器日志上看到谷歌抓取了每一个链接。这两个问题的答案都是

我正在寻找一些关于谷歌如何抓取和索引内容的文档。我读了很多“轻松”的论文和文章,介绍你需要做些什么来提高排名,并确保你的内容被正确索引,但我正在寻找一些关于谷歌如何爬网和索引内容的更高级的技术文档

我想了解更多的事情:

  • 谷歌在爬网时寻找什么元素:页面内容、URL格式、关键词、描述等
  • 如何更新索引

基本上,我试图理解为什么有些页面被索引,而其他页面却没有,即使格式相似。为什么当我在整个域名上搜索时,只有10%的页面出现,即使我可以在我的服务器日志上看到谷歌抓取了每一个链接。

这两个问题的答案都是严格保密的商业秘密,表面上是为了防止玩这个系统

还请记住,谷歌做出的决定,使得局外人几乎不可能做到准确和及时。如果不为谷歌工作,你很可能找不到深入准确的答案


然而,网络垃圾邮件团队负责人马特·卡茨(Matt Cutts)经常就谷歌如何处理互联网上的内容提供最准确的见解。为了更好地理解谷歌的方法论,浏览他的内容是值得的。

为了提供webcrawler如何工作的技术方法,我建议您深入研究nutch.apache.org解决方案

典型的webcrawler显示以下区域:抓取器、解析器、索引器和搜索器。简单地说,webcrawler会获取网站上所有可用的URL,并在其中创建段,其存储容量高达每页101kb。对这些页面进行解析,但不会存储和或等典型单词,但会使用贝叶斯计算对其他单词进行分析,以便进行排名

搜索引擎索引收集、解析和存储数据,以促进快速准确的信息检索。这些任务主要通过存储每个搜索准则的出现列表来执行,通常以哈希表或二叉树的形式使用反向索引

正如马克所说,谷歌的计算主要是商业秘密,但谷歌发布的专利可能是一个良好的开端。Pagerank主要分析反向链接以及指向您网站的网站对人们偏好的重要性。根据我的经验,提供一个xml站点地图来说明站点上的所有网页是很重要的。在该站点地图上,您可以定义每个页面的爬网频率。gsitecrawler.com/是一个有趣的可能性

谷歌网站优化器将让你有机会看到谷歌在你的网站上发现了什么,日志是可以的,但机器人可能会发现问题,最好的方法是通过谷歌网站优化器来显示错误

最后,你最关心的是搜索引擎优化专家为之奋斗的事情,我建议你检查一下seomoz.com等网站及其工具。。。您将学习如何在搜索引擎的有机结果上更好地定位您的网站


希望有帮助!,塞巴斯蒂安。

我分析了最新的算法,发现现在

谷歌给予内容比链接更重要

所以,如果你的内容足够好,有合适的标签,谷歌会自动为你生成索引。我建议H1-H6所有内容都要以良好的方式使用。

是的,谷歌喜欢新鲜独特的内容。 在HTML编程的head标签下使用“H1H2元标签……关键字”。主播必须在H1、H2中使用与业务相关的关键字,它可以帮助您的网站搜索引擎


也可用于此标记中的丰富代码段

它可以非常精确和敏感地扫描您的网页。像javascript嵌入或不同文件中这样的因素很重要,无论您是在设计中使用框架还是使用繁重的图形,都会降低页面的排名。关键词显然是影响排名的实体。断开的链接也会降低你的网站排名。
基本上,你可以参考谷歌的爬虫来浏览所有的要点。这最多需要40分钟

这不是关于网络爬网和索引的。这是关于如何处理大数据和一般计算的。@Laurent Luce:…这就是谷歌在网络上爬行的方式!此文档没有解释内容是如何爬网和索引的。我在问题中添加了更多细节,以解释为什么这种类型的文档在这里不相关。@Laurent Luce:Google不会告诉你他们如何索引的确切细节,现在是吗?+1,尽管Page和Brin很好地提供了这篇文章“搜索引擎的解剖”在他们的斯坦福网页上。我想这是你从谷歌得到的最好的东西。我一直在读这个博客,它确实很有趣。