Seo 我可以使用“;主机&x201D;robots.txt中的指令?

Seo 我可以使用“;主机&x201D;robots.txt中的指令?,seo,robots.txt,Seo,Robots.txt,在搜索关于robots.txt的特定信息时,我偶然发现了一个关于这个主题的答案。它建议我可以使用Host指令告诉爬虫我的首选镜像域: User-Agent: * Disallow: /dir/ Host: www.example.com 此外,谷歌还表示,谷歌也理解Host指令,但没有太多(即没有)信息 在,我没有在主机上找到任何东西(或者维基百科上说的爬网延迟) 是否鼓励使用Host指令 谷歌有没有关于这个robots.txtspecific的资源 与其他爬虫的兼容性如何 ——至少从2021

在搜索关于
robots.txt
的特定信息时,我偶然发现了一个关于这个主题的答案。它建议我可以使用
Host
指令告诉爬虫我的首选镜像域:

User-Agent: *
Disallow: /dir/
Host: www.example.com
此外,谷歌还表示,谷歌也理解
Host
指令,但没有太多(即没有)信息

在,我没有在主机上找到任何东西(或者维基百科上说的爬网延迟)

  • 是否鼓励使用
    Host
    指令
  • 谷歌有没有关于这个
    robots.txt
    specific的资源
  • 与其他爬虫的兼容性如何
  • ——至少从2021年初开始,链接条目不再涉及相关指令。

    说明:

    忽略未识别的标题

    他们称之为“头”,但这个术语并没有在任何地方定义。但正如在关于格式的章节中提到的,在与
    用户代理
    禁止
    相同的段落中,似乎可以安全地假设“headers”表示“字段名”

    因此,可以使用
    Host
    或任何其他字段名

    • 支持这些字段的Robots.txt解析器也支持它们
    • 不支持此类字段的Robots.txt解析器必须忽略它们

    但是请记住:由于robots.txt项目没有指定它们,因此无法确定不同的解析器是否以相同的方式支持此字段。因此,您必须手动检查每个支持的解析器。

    这个问题似乎离题了,因为它是关于SEOIt的,是关于hostnames和robots.txt的一个技术方面,标记为“seo”和“robots.txt”。它是如何脱离主题的?因此,
    Host
    是其他人对机器人排除标准的补充,因为它在robotstxt.org上没有定义-@dakab:是的,
    Host
    字段没有在原始robots.txt规范中指定。