Seo 为什么Googlebot会按照URL长度的升序遍历新添加的站点?

Seo 为什么Googlebot会按照URL长度的升序遍历新添加的站点?,seo,web-crawler,googlebot,Seo,Web Crawler,Googlebot,Googlebot()在新添加的站点上按URL长度对应的顺序抓取URL:s: .. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ .. .. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ .. .. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Go

Googlebot()在新添加的站点上按URL长度对应的顺序抓取URL:s:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
我在多个(>10)完全独立的站点上看到过这种精确的模式,因此排序不仅仅是随机巧合

只是为了避免混淆:爬行顺序似乎是谷歌机器人如何运作的一个很小的细节。是的,这确实是一个小细节,但我想了解谷歌机器人如何在网上爬行的技术细节。爬行排序就是这样一个细节。如果你认为这条知识是“无用的”,那完全可以,但请不要用答案污染这一页,因为你的贡献不会有多大帮助。根据SO众议院规则,没有帮助的答案将被否决

我的问题是:

  • 你(是的,你个人——不是你读的博客,等等)观察到这种爬行模式了吗
  • 谷歌是否正式记录了这种爬行模式
  • 选择这种爬行模式的原因可能是什么
  • 请尝试回答所有三(3)个问题

  • 没有
  • 没有
  • 虽然这种行为看起来很不寻常,但我认为这可能是一系列巧合的结果,而不是爬行模式。不幸的是,在做出断言之前,我需要更多的数据(实际访问日志除外)。可能原因:1。URL是否列在网站地图中?2.URL是否按字母顺序排列?3.URL通常以什么顺序出现在页面中
  • 没有
  • 没有
  • 虽然这种行为看起来很不寻常,但我认为这可能是一系列巧合的结果,而不是爬行模式。不幸的是,在做出断言之前,我需要更多的数据(实际访问日志除外)。可能原因:1。URL是否列在网站地图中?2.URL是否按字母顺序排列?3.URL通常以什么顺序出现在页面中
  • 从web开发的角度来看 这种非随机爬行模式可以 造成意想不到的后果;例如 非随机荷载模式(如果有) 特定的URL长度对应于一个 特别重的类型 交易等

    如果搜索引擎机器人可以访问事务页面,那么我称之为失败。搜索引擎机器人不应该访问任何事务页面!禁止在robots.txt或meta robots页面中对其进行索引

    因此,你的三个问题毫无用处——谷歌没有记录他们使用的任何算法。此外,爬行的顺序完全不需要知道(或尝试操纵),因为基本上你不在乎,并且希望得到尽可能多的页面索引(除了你在robots.txt中禁止的页面)

    从web开发的角度来看 这种非随机爬行模式可以 造成意想不到的后果;例如 非随机荷载模式(如果有) 特定的URL长度对应于一个 特别重的类型 交易等

    如果搜索引擎机器人可以访问事务页面,那么我称之为失败。搜索引擎机器人不应该访问任何事务页面!禁止在robots.txt或meta robots页面中对其进行索引

    因此,你的三个问题毫无用处——谷歌没有记录他们使用的任何算法。此外,爬行的顺序完全不需要知道(或尝试操纵),因为基本上你不在乎,并且希望得到尽可能多的页面索引(除了你在robots.txt中禁止的页面)

  • 没有
  • 没有
  • 我不相信爬行模式真的很重要。如果谷歌发现你的页面的顺序对你的内容很重要,甚至在以错误的方式访问时导致错误,那么你的网站结构(或者你的robots metatags/robots.txt)就有严重问题 我在我的项目中观察到的是,谷歌倾向于以机器人找到页面的方式抓取页面。而这又取决于你向谷歌“展示”它们的方式(通过网站链接、网站地图、rss提要等)

    所以我不会太担心URL的长度,而是在一个突出的、有规律的爬网页面上放置一个指向您希望找到的页面的链接

  • 没有
  • 没有
  • 我不相信爬行模式真的很重要。如果谷歌发现你的页面的顺序对你的内容很重要,甚至在以错误的方式访问时导致错误,那么你的网站结构(或者你的robots metatags/robots.txt)就有严重问题 我在我的项目中观察到的是,谷歌倾向于以机器人找到页面的方式抓取页面。而这又取决于你向谷歌“展示”它们的方式(通过网站链接、网站地图、rss提要等)


    因此,我不太担心URL长度,而是在一个突出的、有规律的爬网页面上放置一个指向您希望找到的页面的链接。

    我从未经历过类似的情况(尽管我从未准确记录哪些URL被索引以及何时被索引)。根据我的经验,谷歌首先对它认为最流行的URL进行索引。例如,如果它看到来自一个高级页面或多个页面的链接,它将在同一站点上的其他页面之前抓取该链接


    对于您的案例,我能想到的唯一理由是,Google机器人假定较长的URL相当于“较深”的页面,但忽略了文件夹结构。

    我从未经历过类似的情况(尽管我从未准确记录哪些URL被索引以及何时被索引)。根据我的经验,谷歌首先对它认为最流行的URL进行索引。例如,如果它看到来自一个高级页面或多个页面的链接,它将在同一站点上的其他页面之前抓取该链接

    我能想到的唯一理由是Googlebot假设更长的URL相当于一个“更深”的页面,但忽略了文件夹s