Seo 为什么Googlebot会按照URL长度的升序遍历新添加的站点？_Seo_Web Crawler_Googlebot

Seo 为什么Googlebot会按照URL长度的升序遍历新添加的站点？

seo web-crawler

Seo 为什么Googlebot会按照URL长度的升序遍历新添加的站点？,seo,web-crawler,googlebot,Seo,Web Crawler,Googlebot,Googlebot（）在新添加的站点上按URL长度对应的顺序抓取URL:s： .. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ .. .. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ .. .. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Go

Googlebot（）在新添加的站点上按URL长度对应的顺序抓取URL:s：

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

我在多个（>10）完全独立的站点上看到过这种精确的模式，因此排序不仅仅是随机巧合

只是为了避免混淆：爬行顺序似乎是谷歌机器人如何运作的一个很小的细节。是的，这确实是一个小细节，但我想了解谷歌机器人如何在网上爬行的技术细节。爬行排序就是这样一个细节。如果你认为这条知识是“无用的”，那完全可以，但请不要用答案污染这一页，因为你的贡献不会有多大帮助。根据SO众议院规则，没有帮助的答案将被否决

我的问题是：

你（是的，你个人——不是你读的博客，等等）观察到这种爬行模式了吗

谷歌是否正式记录了这种爬行模式

选择这种爬行模式的原因可能是什么

请尝试回答所有三（3）个问题

没有

虽然这种行为看起来很不寻常，但我认为这可能是一系列巧合的结果，而不是爬行模式。不幸的是，在做出断言之前，我需要更多的数据（实际访问日志除外）。可能原因：1。URL是否列在网站地图中？2.URL是否按字母顺序排列？3.URL通常以什么顺序出现在页面中

没有

从web开发的角度来看这种非随机爬行模式可以造成意想不到的后果；例如非随机荷载模式（如果有）特定的URL长度对应于一个特别重的类型交易等

如果搜索引擎机器人可以访问事务页面，那么我称之为失败。搜索引擎机器人不应该访问任何事务页面！禁止在robots.txt或meta robots页面中对其进行索引

因此，你的三个问题毫无用处——谷歌没有记录他们使用的任何算法。此外，爬行的顺序完全不需要知道（或尝试操纵），因为基本上你不在乎，并且希望得到尽可能多的页面索引（除了你在robots.txt中禁止的页面）

从web开发的角度来看这种非随机爬行模式可以造成意想不到的后果；例如非随机荷载模式（如果有）特定的URL长度对应于一个特别重的类型交易等

如果搜索引擎机器人可以访问事务页面，那么我称之为失败。搜索引擎机器人不应该访问任何事务页面！禁止在robots.txt或meta robots页面中对其进行索引

没有

我不相信爬行模式真的很重要。如果谷歌发现你的页面的顺序对你的内容很重要，甚至在以错误的方式访问时导致错误，那么你的网站结构（或者你的robots metatags/robots.txt）就有严重问题我在我的项目中观察到的是，谷歌倾向于以机器人找到页面的方式抓取页面。而这又取决于你向谷歌“展示”它们的方式（通过网站链接、网站地图、rss提要等）

所以我不会太担心URL的长度，而是在一个突出的、有规律的爬网页面上放置一个指向您希望找到的页面的链接

没有

因此，我不太担心URL长度，而是在一个突出的、有规律的爬网页面上放置一个指向您希望找到的页面的链接。

我从未经历过类似的情况（尽管我从未准确记录哪些URL被索引以及何时被索引）。根据我的经验，谷歌首先对它认为最流行的URL进行索引。例如，如果它看到来自一个高级页面或多个页面的链接，它将在同一站点上的其他页面之前抓取该链接

对于您的案例，我能想到的唯一理由是，Google机器人假定较长的URL相当于“较深”的页面，但忽略了文件夹结构。

我能想到的唯一理由是Googlebot假设更长的URL相当于一个“更深”的页面，但忽略了文件夹s