Apache robots.txt忽略所有文件夹,但爬网根目录中的所有文件
那我该怎么办 用户代理:* 禁止:/ 就这么简单吗? 或者也不会在根目录中抓取文件 基本上这就是我要做的——在根目录中抓取所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹。。即 不允许:/admin 不允许:/this 。。等 谢谢Apache robots.txt忽略所有文件夹,但爬网根目录中的所有文件,apache,robots.txt,Apache,Robots.txt,那我该怎么办 用户代理:* 禁止:/ 就这么简单吗? 或者也不会在根目录中抓取文件 基本上这就是我要做的——在根目录中抓取所有文件/页面,但根本不抓取任何文件夹 还是我必须明确指定每个文件夹。。即 不允许:/admin 不允许:/this 。。等 谢谢 nat您的示例将阻止root中的所有文件 如果不明确指定每个文件夹,就无法轻松完成所需的操作 不过,有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot,但允许那些支持模式匹配的bot 比如说 # disallow all rob
nat您的示例将阻止root中的所有文件 如果不明确指定每个文件夹,就无法轻松完成所需的操作 不过,有些爬虫程序允许您进行模式匹配。您可以禁止所有不支持模式匹配的bot,但允许那些支持模式匹配的bot 比如说
# disallow all robots
User-agent: *
Disallow: /
# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /
实际上,每个文件夹都会显式地执行此操作。。尽管如此,还是谢谢你,但这并不是因为它不起作用