Web crawler 一种简洁的方法，用于禁止对所有目录（包括异常）进行爬网_Web Crawler_Robots.txt

Web crawler 一种简洁的方法，用于禁止对所有目录（包括异常）进行爬网

web-crawler

Web crawler 一种简洁的方法，用于禁止对所有目录（包括异常）进行爬网,web-crawler,robots.txt,Web Crawler,Robots.txt,是否要编写robots.txt文件，禁止对指定目录以外的所有内容编制索引当前不允许是唯一有效的方法，这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录有人解决过这个问题吗？没有好的解决办法。正如你所说的，你可以不允许任何向世界宣布事情的事情 >P>如果你不链接到当前URL结构，你可以考虑创建一个“允许”的目录，然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录或者，您可以为bot用户代理构建某种服务器端过滤器。允许您的robots.txt中的主要服务器，然后

是否要编写robots.txt文件，禁止对指定目录以外的所有内容编制索引

当前不允许是唯一有效的方法，这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录

有人解决过这个问题吗？

没有好的解决办法。正如你所说的，你可以不允许任何向世界宣布事情的事情

>P>如果你不链接到当前URL结构，你可以考虑创建一个“允许”的目录，然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录

或者，您可以为bot用户代理构建某种服务器端过滤器。允许您的

robots.txt

中的主要服务器，然后使用适当的响应代码过滤它们的访问服务器端，同时阻止所有其他服务器。这可能是一个比我的其他选项更糟糕的解决方案，但它保留了您的规范URL

>P>如果你不链接到当前URL结构，你可以考虑创建一个“允许”的目录，然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录

或者，您可以为bot用户代理构建某种服务器端过滤器。允许您的

robots.txt