Seo 我可以使用“;主机&x201D;robots.txt中的指令?
在搜索关于Seo 我可以使用“;主机&x201D;robots.txt中的指令?,seo,robots.txt,Seo,Robots.txt,在搜索关于robots.txt的特定信息时,我偶然发现了一个关于这个主题的答案。它建议我可以使用Host指令告诉爬虫我的首选镜像域: User-Agent: * Disallow: /dir/ Host: www.example.com 此外,谷歌还表示,谷歌也理解Host指令,但没有太多(即没有)信息 在,我没有在主机上找到任何东西(或者维基百科上说的爬网延迟) 是否鼓励使用Host指令 谷歌有没有关于这个robots.txtspecific的资源 与其他爬虫的兼容性如何 ——至少从2021
robots.txt
的特定信息时,我偶然发现了一个关于这个主题的答案。它建议我可以使用Host
指令告诉爬虫我的首选镜像域:
User-Agent: *
Disallow: /dir/
Host: www.example.com
此外,谷歌还表示,谷歌也理解Host
指令,但没有太多(即没有)信息
在,我没有在主机上找到任何东西(或者维基百科上说的爬网延迟)
Host
指令robots.txt
specific的资源用户代理
和禁止
相同的段落中,似乎可以安全地假设“headers”表示“字段名”
因此,可以使用Host
或任何其他字段名
- 支持这些字段的Robots.txt解析器也支持它们
- 不支持此类字段的Robots.txt解析器必须忽略它们
但是请记住:由于robots.txt项目没有指定它们,因此无法确定不同的解析器是否以相同的方式支持此字段。因此,您必须手动检查每个支持的解析器。这个问题似乎离题了,因为它是关于SEOIt的,是关于hostnames和robots.txt的一个技术方面,标记为“seo”和“robots.txt”。它是如何脱离主题的?因此,
Host
是其他人对机器人排除标准的补充,因为它在robotstxt.org上没有定义-@dakab:是的,Host
字段没有在原始robots.txt规范中指定。