Web crawler 避免或阻止对所有负载平衡的站点进行爬网

Web crawler 避免或阻止对所有负载平衡的站点进行爬网,web-crawler,umbraco,load-balancing,robots.txt,Web Crawler,Umbraco,Load Balancing,Robots.txt,我们在负载平衡环境中有一个Umbraco站点,我们需要确保只对实际URL进行爬网,而不是对不同的生产URL进行爬网 我们只希望example.com被索引,而production1.example.com和production2.example.com上的负载平衡器则不被索引 我是要在robots.txt中添加一个不允许这些URL的规则,还是在头部添加一个metanofollow标记?或者有没有其他方法使负载平衡URL不被爬虫编入索引?最佳解决方案:不要公开特定于节点的URL(我们通常使用本地i

我们在负载平衡环境中有一个Umbraco站点,我们需要确保只对实际URL进行爬网,而不是对不同的生产URL进行爬网

我们只希望
example.com
被索引,而
production1.example.com
production2.example.com
上的负载平衡器则不被索引


我是要在robots.txt中添加一个不允许这些URL的规则,还是在头部添加一个meta
nofollow
标记?或者有没有其他方法使负载平衡URL不被爬虫编入索引?

最佳解决方案:不要公开特定于节点的URL(我们通常使用本地ip/端口检查特定节点上的站点)


由于您有这些域,您可以根据域的不同(使用URL重写)提供不同的robots.txt

不幸的是,客户端希望这些URL公开,但无论如何我都会给你答案。