Seo Robots.txt中的多个用户代理

Seo Robots.txt中的多个用户代理,seo,robots.txt,Seo,Robots.txt,在robots.txt文件中,我有以下部分 User-Agent: Bot1 Disallow: /A User-Agent: Bot2 Disallow: /B User-Agent: * Disallow: /C 语句不允许:c对Bot1和Bot2可见吗?如果机器人遵守robots.txt文件,则语句将可见,因此它们将无法爬网/c 用户代理后的通配符(*)表示所有用户代理 但是请记住,并非所有机器人都遵守robots.txt;dr:否,Bot1和Bot2将愉快地爬网以C开头的路径 每个

在robots.txt文件中,我有以下部分

User-Agent: Bot1
Disallow: /A

User-Agent: Bot2
Disallow: /B

User-Agent: *
Disallow: /C

语句
不允许:c对Bot1和Bot2可见吗?

如果机器人遵守robots.txt文件,则语句将可见,因此它们将无法爬网/c

用户代理后的通配符(*)表示所有用户代理


但是请记住,并非所有机器人都遵守robots.txt;dr:否,Bot1和Bot2将愉快地爬网以
C
开头的路径

每个机器人最多只遵守一个规则

原始规格 在报告中说:

如果该值为“*”,则该记录描述未匹配任何其他记录的任何robot的默认访问策略

过期的RFC草案 最初的规范,包括一些附加内容(如
Allow
)成为RFC的草案,但从未被接受/发布。信中说:

robot必须遵守/robots.txt中的第一条记录,该记录包含用户代理行,其值包含robot的名称标记作为子字符串。名称比较不区分大小写。如果不存在这样的记录,则它应该遵守第一条记录,并使用带有“*”值的用户代理行(如果存在)。如果没有满足任一条件的记录,或者根本不存在任何记录,则访问是无限的

因此,它确认了对原始规范的解释

启动位置 例如,谷歌似乎遵循以下规范:

robots.txt文件中的每个部分都是独立的,不基于前面的部分。例如:

User-agent: *
Disallow: /folder1/

User-Agent: Googlebot
Disallow: /folder2/
在本例中,只有与
/folder2/
匹配的URL才不允许用于Googlebot


第一个google结果:“multiple User agents robots.txt”@marcdeavent这不是与这里所问的相反吗?好的,w.r.t google,如果有
用户代理:Googlebot
用户代理的条目:
谷歌会在爬行时检查这两个部分吗?我认为这是正确的
Bot1
Bot2
应该忽略最后一个块(
用户代理:
)。@2-Stroker:不,谷歌只会检查
用户代理:谷歌机器人
部分(即“最具体”部分),
用户代理:
部分将被忽略。@moobot:“这就是我说的。”-但你似乎说的完全相反,哪个似乎不正确?