Seo Robots.txt中的多个用户代理
在robots.txt文件中,我有以下部分Seo Robots.txt中的多个用户代理,seo,robots.txt,Seo,Robots.txt,在robots.txt文件中,我有以下部分 User-Agent: Bot1 Disallow: /A User-Agent: Bot2 Disallow: /B User-Agent: * Disallow: /C 语句不允许:c对Bot1和Bot2可见吗?如果机器人遵守robots.txt文件,则语句将可见,因此它们将无法爬网/c 用户代理后的通配符(*)表示所有用户代理 但是请记住,并非所有机器人都遵守robots.txt;dr:否,Bot1和Bot2将愉快地爬网以C开头的路径 每个
User-Agent: Bot1
Disallow: /A
User-Agent: Bot2
Disallow: /B
User-Agent: *
Disallow: /C
语句
不允许:c对Bot1和Bot2可见吗?如果机器人遵守robots.txt文件,则语句将可见,因此它们将无法爬网/c
用户代理后的通配符(*)表示所有用户代理
但是请记住,并非所有机器人都遵守robots.txt;dr:否,Bot1和Bot2将愉快地爬网以C
开头的路径
每个机器人最多只遵守一个规则
原始规格
在报告中说:
如果该值为“*”,则该记录描述未匹配任何其他记录的任何robot的默认访问策略
过期的RFC草案
最初的规范,包括一些附加内容(如Allow
)成为RFC的草案,但从未被接受/发布。信中说:
robot必须遵守/robots.txt中的第一条记录,该记录包含用户代理行,其值包含robot的名称标记作为子字符串。名称比较不区分大小写。如果不存在这样的记录,则它应该遵守第一条记录,并使用带有“*”值的用户代理行(如果存在)。如果没有满足任一条件的记录,或者根本不存在任何记录,则访问是无限的
因此,它确认了对原始规范的解释
启动位置
例如,谷歌似乎遵循以下规范:
robots.txt文件中的每个部分都是独立的,不基于前面的部分。例如:
User-agent: *
Disallow: /folder1/
User-Agent: Googlebot
Disallow: /folder2/
在本例中,只有与/folder2/
匹配的URL才不允许用于Googlebot
第一个google结果:“multiple User agents robots.txt”@marcdeavent这不是与这里所问的相反吗?好的,w.r.t google,如果有用户代理:Googlebot
和用户代理的条目:
谷歌会在爬行时检查这两个部分吗?我认为这是正确的Bot1
和Bot2
应该忽略最后一个块(用户代理:
)。@2-Stroker:不,谷歌只会检查用户代理:谷歌机器人
部分(即“最具体”部分),用户代理:
部分将被忽略。@moobot:“这就是我说的。”-但你似乎说的完全相反,哪个似乎不正确?