如何允许robots.txt中的URL,但不允许与允许的URL类似的其他URL

如何允许robots.txt中的URL,但不允许与允许的URL类似的其他URL,robots.txt,Robots.txt,这就是我现在使用的: User-agent: * Allow: / Allow: /video/funny-dogs/index.html Allow: /video/funny-cats/index.html Allow: /video/funny-dolphins/index.html Disallow: /video/ 但似乎所有其他的/video/url也在被爬网 有什么问题吗?你的robots.txt文件肯定适用于谷歌,我相信它也适用于必应。然而,对于许多其他机器人来说,这可能行不通

这就是我现在使用的:

User-agent: *
Allow: /
Allow: /video/funny-dogs/index.html
Allow: /video/funny-cats/index.html
Allow: /video/funny-dolphins/index.html
Disallow: /video/
但似乎所有其他的/video/url也在被爬网


有什么问题吗?

你的robots.txt文件肯定适用于谷歌,我相信它也适用于必应。然而,对于许多其他机器人来说,这可能行不通,因为并非所有机器人都以相同的方式优先考虑竞争的允许和禁止。此外,一些机器人根本不支持Allow

对于Google/Bing以外的机器人,您可以通过删除允许:/line来增加成功的机会。许多较老的机器人寻找可应用于当前URL的第一个指令,然后停止寻找。对于这些机器人,将始终应用allow,而忽略其他指令。删除Allow:/应该可以解决这个问题

如果谷歌或必应没有遵守你的robots.txt文件,那么有些东西可能会被破坏。您可以检查以下内容:

robots.txt文件是最近添加/更改的吗?谷歌通常需要一周的时间才能发现一个新的robots.txt文件。 robots.txt是否在站点的根目录中?e、 g.在,不是 对robots.txt文件的请求是否会在响应头中返回任何有趣的内容,如X-robots-Tag:noindex,或200以外的状态代码?
你的robots.txt文件肯定适用于谷歌,我相信它也适用于必应。然而,对于许多其他机器人来说,这可能行不通,因为并非所有机器人都以相同的方式优先考虑竞争的允许和禁止。此外,一些机器人根本不支持Allow

对于Google/Bing以外的机器人,您可以通过删除允许:/line来增加成功的机会。许多较老的机器人寻找可应用于当前URL的第一个指令,然后停止寻找。对于这些机器人,将始终应用allow,而忽略其他指令。删除Allow:/应该可以解决这个问题

如果谷歌或必应没有遵守你的robots.txt文件,那么有些东西可能会被破坏。您可以检查以下内容:

robots.txt文件是最近添加/更改的吗?谷歌通常需要一周的时间才能发现一个新的robots.txt文件。 robots.txt是否在站点的根目录中?e、 g.在,不是 对robots.txt文件的请求是否会在响应头中返回任何有趣的内容,如X-robots-Tag:noindex,或200以外的状态代码?
最初的robots.txt规范说bot应该读取robots.txt并采用第一条适用的规则。添加Allow后,这一点没有改变,许多机器人仍然使用该规则。其他机器人使用最宽松的规则

在第一种情况下,文件第一行上的Allow:/将使bot认为它可以爬网。在第二种情况下,文件中任何位置的Allow://都会导致bot假定它可以抓取任何内容

从来没有一个好的理由包括Allow:/。在robots.txt中的假设是,如果没有明确禁止文件,则允许爬行。“允许”是对“禁止”的覆盖或例外


删除允许:/。然后一切都会好起来。

最初的robots.txt规范说,机器人应该读取robots.txt并采用适用的第一条规则。添加Allow后,这一点没有改变,许多机器人仍然使用该规则。其他机器人使用最宽松的规则

在第一种情况下,文件第一行上的Allow:/将使bot认为它可以爬网。在第二种情况下,文件中任何位置的Allow://都会导致bot假定它可以抓取任何内容

从来没有一个好的理由包括Allow:/。在robots.txt中的假设是,如果没有明确禁止文件,则允许爬行。“允许”是对“禁止”的覆盖或例外

删除允许:/。那么事情就应该开始了