Web crawler 避免或阻止对所有负载平衡的站点进行爬网_Web Crawler_Umbraco_Load Balancing_Robots.txt

Web crawler 避免或阻止对所有负载平衡的站点进行爬网

web-crawler umbraco

Web crawler 避免或阻止对所有负载平衡的站点进行爬网,web-crawler,umbraco,load-balancing,robots.txt,Web Crawler,Umbraco,Load Balancing,Robots.txt,我们在负载平衡环境中有一个Umbraco站点，我们需要确保只对实际URL进行爬网，而不是对不同的生产URL进行爬网我们只希望example.com被索引，而production1.example.com和production2.example.com上的负载平衡器则不被索引我是要在robots.txt中添加一个不允许这些URL的规则，还是在头部添加一个metanofollow标记？或者有没有其他方法使负载平衡URL不被爬虫编入索引？最佳解决方案：不要公开特定于节点的URL（我们通常使用本地i

我们在负载平衡环境中有一个Umbraco站点，我们需要确保只对实际URL进行爬网，而不是对不同的生产URL进行爬网

我们只希望

example.com

被索引，而

production1.example.com

和

production2.example.com

上的负载平衡器则不被索引

我是要在robots.txt中添加一个不允许这些URL的规则，还是在头部添加一个meta

nofollow

标记？或者有没有其他方法使负载平衡URL不被爬虫编入索引？

最佳解决方案：不要公开特定于节点的URL（我们通常使用本地ip/端口检查特定节点上的站点）

由于您有这些域，您可以根据域的不同（使用URL重写）提供不同的robots.txt

不幸的是，客户端希望这些URL公开，但无论如何我都会给你答案。