Apache robots.txt忽略所有文件夹,但爬网根目录中的所有文件

Apache robots.txt忽略所有文件夹,但爬网根目录中的所有文件,apache,robots.txt,Apache,Robots.txt,那我该怎么办 用户代理:* 禁止:/ 就这么简单吗? 或者也不会在根目录中抓取文件 基本上这就是我要做的——在根目录中抓取所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹。。即 不允许:/admin 不允许:/this 。。等 谢谢 nat您的示例将阻止root中的所有文件 如果不明确指定每个文件夹,就无法轻松完成所需的操作 不过,有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot,但允许那些支持模式匹配的bot 比如说 # disallow all rob

那我该怎么办

用户代理:*

禁止:/

就这么简单吗? 或者也不会在根目录中抓取文件

基本上这就是我要做的——在根目录中抓取所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹。。即

不允许:/admin

不允许:/this

。。等

谢谢


nat

您的示例将阻止root中的所有文件

如果不明确指定每个文件夹,就无法轻松完成所需的操作

不过,有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot,但允许那些支持模式匹配的bot

比如说

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /

实际上,每个文件夹都会显式地执行此操作。。尽管如此,还是谢谢你,但这并不是因为它不起作用