Apache robots.txt忽略所有文件夹，但爬网根目录中的所有文件_Apache_Robots.txt

Apache robots.txt忽略所有文件夹，但爬网根目录中的所有文件

apache

Apache robots.txt忽略所有文件夹，但爬网根目录中的所有文件,apache,robots.txt,Apache,Robots.txt,那我该怎么办用户代理：* 禁止：/ 就这么简单吗？或者也不会在根目录中抓取文件基本上这就是我要做的——在根目录中抓取所有文件/页面，但根本不抓取任何文件夹还是我必须明确指定每个文件夹。。即不允许：/admin 不允许：/this 。。等谢谢 nat您的示例将阻止root中的所有文件如果不明确指定每个文件夹，就无法轻松完成所需的操作不过，有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot，但允许那些支持模式匹配的bot 比如说 # disallow all rob

那我该怎么办

用户代理：*

禁止：/

就这么简单吗？或者也不会在根目录中抓取文件

基本上这就是我要做的——在根目录中抓取所有文件/页面，但根本不抓取任何文件夹还是我必须明确指定每个文件夹。。即

不允许：/admin

不允许：/this

。。等

谢谢

nat

您的示例将阻止root中的所有文件

如果不明确指定每个文件夹，就无法轻松完成所需的操作

不过，有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot，但允许那些支持模式匹配的bot

比如说

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /

实际上，每个文件夹都会显式地执行此操作。。尽管如此，还是谢谢你，但这并不是因为它不起作用