.htaccess robots.txt只需要某些文件和文件夹,不允许任何内容

.htaccess robots.txt只需要某些文件和文件夹,不允许任何内容,.htaccess,robots.txt,.htaccess,Robots.txt,我想robots.txt只允许index.php和图像文件夹,不允许所有其他文件夹,这可能吗 这是我的代码: User-agent: * Allow: /index.php Allow: /images Disallow: / 其次,是否可以使用htaccess执行相同的工作?是的,该代码是正确的。robots.txt文件是从上到下读取的,因此只要disallow位于底部,您就不会遇到问题。这是因为它与第一条规则相匹配,如果disallow位于顶部,则它永远不会到达allow语句 编辑/旁注:

我想robots.txt只允许index.php图像文件夹,不允许所有其他文件夹,这可能吗

这是我的代码:

User-agent: *
Allow: /index.php
Allow: /images
Disallow: /

其次,是否可以使用htaccess执行相同的工作?

是的,该代码是正确的。
robots.txt
文件是从上到下读取的,因此只要
disallow
位于底部,您就不会遇到问题。这是因为它与第一条规则相匹配,如果
disallow
位于顶部,则它永远不会到达
allow
语句

编辑/旁注:
这只适用于符合标准的“好”(谷歌机器人、宾宝机器人等)机器人。很多其他机器人要么误解了
robots.txt
文件,要么完全忽略它。

首先,请注意,“允许”选项实际上是一个非标准的扩展,并非所有爬虫程序都支持它。请参阅(在“非标准扩展”部分中)和

这目前有点尴尬,因为 没有“允许”字段。最简单的方法是将所有文件放入 不允许进入单独的目录,请说“stuff”,然后离开该目录 此目录上方级别中的文件:

一些主要的爬虫程序确实支持它,但令人沮丧的是,它们以不同的方式处理它。例如Google通过匹配字符和路径长度来确定Allow语句的优先级,而Bing则希望您将Allow语句放在第一位。不过,您上面给出的示例在这两种情况下都适用

请记住,那些不支持它的爬虫只会忽略它,因此只会看到你的“不允许”规则,有效地阻止他们索引你的整个网站!您必须决定,移动文件(或为所有子目录编写一长串不允许的规则)的额外工作是否真的值得被较小的爬虫编入索引。可能不会

参考htaccess,在这里你不能用它做任何有用的事情。您必须将用户代理与大量已知的机器人程序进行匹配,最终会丢失一些——或者更糟的是,阻止真正的用户