Web crawler 一种简洁的方法,用于禁止对所有目录(包括异常)进行爬网

Web crawler 一种简洁的方法,用于禁止对所有目录(包括异常)进行爬网,web-crawler,robots.txt,Web Crawler,Robots.txt,是否要编写robots.txt文件,禁止对指定目录以外的所有内容编制索引 当前不允许是唯一有效的方法,这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录 有人解决过这个问题吗?没有好的解决办法。正如你所说的,你可以不允许任何向世界宣布事情的事情 >P>如果你不链接到当前URL结构,你可以考虑创建一个“允许”的目录,然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的robots.txt中的主要服务器,然后

是否要编写robots.txt文件,禁止对指定目录以外的所有内容编制索引

当前不允许是唯一有效的方法,这意味着我需要明确指定哪些目录我不保留-但是我宁愿不向世界宣布这些目录


有人解决过这个问题吗?

没有好的解决办法。正如你所说的,你可以不允许任何向世界宣布事情的事情

    >P>如果你不链接到当前URL结构,你可以考虑创建一个“允许”的目录,然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录

  • 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的
    robots.txt
    中的主要服务器,然后使用适当的响应代码过滤它们的访问服务器端,同时阻止所有其他服务器。这可能是一个比我的其他选项更糟糕的解决方案,但它保留了您的规范URL


    • 没有真正好的解决方案。正如你所说的,你可以不允许任何向世界宣布事情的事情

        >P>如果你不链接到当前URL结构,你可以考虑创建一个“允许”的目录,然后将你想要的内容链接到那里。然后你只需要禁止你的顶级目录

      • 或者,您可以为bot用户代理构建某种服务器端过滤器。允许您的
        robots.txt
        中的主要服务器,然后使用适当的响应代码过滤它们的访问服务器端,同时阻止所有其他服务器。这可能是一个比我的其他选项更糟糕的解决方案,但它保留了您的规范URL