Web crawler 一种简洁的方法,用于禁止对所有目录(包括异常)进行爬网
是否要编写robots.txt文件,禁止对指定目录以外的所有内容编制索引 当前不允许是唯一有效的方法,这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录Web crawler 一种简洁的方法,用于禁止对所有目录(包括异常)进行爬网,web-crawler,robots.txt,Web Crawler,Robots.txt,是否要编写robots.txt文件,禁止对指定目录以外的所有内容编制索引 当前不允许是唯一有效的方法,这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录 有人解决过这个问题吗?没有好的解决办法。正如你所说的,你可以不允许任何向世界宣布事情的事情 >P>如果你不链接到当前URL结构,你可以考虑创建一个“允许”的目录,然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的robots.txt中的主要服务器,然后
有人解决过这个问题吗?没有好的解决办法。正如你所说的,你可以不允许任何向世界宣布事情的事情
- 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的
中的主要服务器,然后使用适当的响应代码过滤它们的访问服务器端,同时阻止所有其他服务器。这可能是一个比我的其他选项更糟糕的解决方案,但它保留了您的规范URLrobots.txt
- 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的
中的主要服务器,然后使用适当的响应代码过滤它们的访问服务器端,同时阻止所有其他服务器。这可能是一个比我的其他选项更糟糕的解决方案,但它保留了您的规范URLrobots.txt
- 没有真正好的解决方案。正如你所说的,你可以不允许任何向世界宣布事情的事情