如何允许robots.txt中的URL，但不允许与允许的URL类似的其他URL_Robots.txt

如何允许robots.txt中的URL，但不允许与允许的URL类似的其他URL

如何允许robots.txt中的URL，但不允许与允许的URL类似的其他URL,robots.txt,Robots.txt,这就是我现在使用的： User-agent: * Allow: / Allow: /video/funny-dogs/index.html Allow: /video/funny-cats/index.html Allow: /video/funny-dolphins/index.html Disallow: /video/ 但似乎所有其他的/video/url也在被爬网有什么问题吗？你的robots.txt文件肯定适用于谷歌，我相信它也适用于必应。然而，对于许多其他机器人来说，这可能行不通

这就是我现在使用的：

User-agent: *
Allow: /
Allow: /video/funny-dogs/index.html
Allow: /video/funny-cats/index.html
Allow: /video/funny-dolphins/index.html
Disallow: /video/

但似乎所有其他的/video/url也在被爬网

有什么问题吗？

你的robots.txt文件肯定适用于谷歌，我相信它也适用于必应。然而，对于许多其他机器人来说，这可能行不通，因为并非所有机器人都以相同的方式优先考虑竞争的允许和禁止。此外，一些机器人根本不支持Allow

对于Google/Bing以外的机器人，您可以通过删除允许：/line来增加成功的机会。许多较老的机器人寻找可应用于当前URL的第一个指令，然后停止寻找。对于这些机器人，将始终应用allow，而忽略其他指令。删除Allow:/应该可以解决这个问题

如果谷歌或必应没有遵守你的robots.txt文件，那么有些东西可能会被破坏。您可以检查以下内容：

robots.txt文件是最近添加/更改的吗？谷歌通常需要一周的时间才能发现一个新的robots.txt文件。 robots.txt是否在站点的根目录中？e、 g.在，不是对robots.txt文件的请求是否会在响应头中返回任何有趣的内容，如X-robots-Tag:noindex，或200以外的状态代码？

如果谷歌或必应没有遵守你的robots.txt文件，那么有些东西可能会被破坏。您可以检查以下内容：

最初的robots.txt规范说bot应该读取robots.txt并采用第一条适用的规则。添加Allow后，这一点没有改变，许多机器人仍然使用该规则。其他机器人使用最宽松的规则

在第一种情况下，文件第一行上的Allow:/将使bot认为它可以爬网。在第二种情况下，文件中任何位置的Allow://都会导致bot假定它可以抓取任何内容

从来没有一个好的理由包括Allow:/。在robots.txt中的假设是，如果没有明确禁止文件，则允许爬行。“允许”是对“禁止”的覆盖或例外

删除允许：/。然后一切都会好起来。

最初的robots.txt规范说，机器人应该读取robots.txt并采用适用的第一条规则。添加Allow后，这一点没有改变，许多机器人仍然使用该规则。其他机器人使用最宽松的规则

在第一种情况下，文件第一行上的Allow:/将使bot认为它可以爬网。在第二种情况下，文件中任何位置的Allow://都会导致bot假定它可以抓取任何内容

从来没有一个好的理由包括Allow:/。在robots.txt中的假设是，如果没有明确禁止文件，则允许爬行。“允许”是对“禁止”的覆盖或例外

删除允许：/。那么事情就应该开始了