Web 阻止谷歌(和其他搜索引擎)爬网域名

Web 阻止谷歌(和其他搜索引擎)爬网域名,web,dns,seo,search-engine,Web,Dns,Seo,Search Engine,我们想为某些目的打开一个新域(称为PR)。问题是,我们希望域名指向我们目前拥有的同一个网站 我们根本不希望这个新域名出现在搜索引擎(特别是谷歌)上 我们排除了以下选项: Robots.txt无法使用-它在两个域上的工作方式相同,这不是我们想要的 不阻塞-只建议索引类似的页面。原始页面可能最终被编入索引 有办法解决这个问题吗 编辑 关于.htaccess建议:我们在IIS7上。rel=canonical不是建议。它准确地告诉谷歌该使用哪个页面 话虽如此,在为域中不希望索引的页面提供服务时,您可

我们想为某些目的打开一个新域(称为PR)。问题是,我们希望域名指向我们目前拥有的同一个网站

我们根本不希望这个新域名出现在搜索引擎(特别是谷歌)上

我们排除了以下选项:

  • Robots.txt无法使用-它在两个域上的工作方式相同,这不是我们想要的
  • 不阻塞-只建议索引类似的页面。原始页面可能最终被编入索引
有办法解决这个问题吗

编辑


关于
.htaccess
建议:我们在IIS7上。

rel=canonical
不是建议。它准确地告诉谷歌该使用哪个页面

话虽如此,在为域中不希望索引的页面提供服务时,您可以使用

只需在中向新的X-Robots-tag指令添加任何受支持的元标记即可 用于为文件提供服务的HTTP头

不要在谷歌搜索结果中包含此文档:


X-Robots-Tag:noindex
rel=canonical
不是建议。它准确地告诉谷歌该使用哪个页面

话虽如此,在为域中不希望索引的页面提供服务时,您可以使用

只需在中向新的X-Robots-tag指令添加任何受支持的元标记即可 用于为文件提供服务的HTTP头

不要在谷歌搜索结果中包含此文档:

X-Robots-Tag:noindex
你试过了吗

这种方法的缺点是它不适用于其他搜索引擎。

您尝试过吗


这种方法的缺点是,它不适用于其他搜索引擎。

我会通过一个.htaccess文件来阻止站点根目录下的相关域

BrowserMatchNoCase SpammerRobot bad_bot
Order Deny,Allow
Deny from env=bad_bot
您必须指定主要搜索引擎使用的不同机器人。
或者,您可以允许所有已知的WebBrowser,并将它们列为白名单。

我会通过一个.htaccess文件来阻止站点根目录下的相关域

BrowserMatchNoCase SpammerRobot bad_bot
Order Deny,Allow
Deny from env=bad_bot
您必须指定主要搜索引擎使用的不同机器人。
或者您可以允许所有已知的WebBrowser,并将它们列为白名单。

我知道您提到Robots.txt不能使用,因为它将在两个域上使用,这是错误的。你能解释你的理由吗?我希望如果
newdomain.com
代理
olddomain.com
,相同的
robots.txt
将出现在两个域下,除非它是动态生成的。@Torxed,我不知道robots.txt可以动态生成。因为我们谈论的是同一个物理位置-只有一个文件。@JNF robots.txt文件可以是动态的,不应该存在允许一个域和阻止另一个域访问robots的问题。但话说回来,如果你相信谷歌不会根据你根目录上的简单文本文件为你的网站编制索引。。。如果我要写一个机器人,我会跳过robots.txt。。我会确保通过.htaccess或类似的方式阻止您的用户代理。。但那只是我。。→ 我知道你提到Robots.txt不能使用,因为它将在两个域上使用,这是错误的。你能解释你的理由吗?我希望如果
newdomain.com
代理
olddomain.com
,相同的
robots.txt
将出现在两个域下,除非它是动态生成的。@Torxed,我不知道robots.txt可以动态生成。因为我们谈论的是同一个物理位置-只有一个文件。@JNF robots.txt文件可以是动态的,不应该存在允许一个域和阻止另一个域访问robots的问题。但话说回来,如果你相信谷歌不会根据你根目录上的简单文本文件为你的网站编制索引。。。如果我要写一个机器人,我会跳过robots.txt。。我会确保通过.htaccess或类似的方式阻止您的用户代理。。但那只是我。。→ 这很有趣,我不知道这个标签。要解决这个问题,需要以请求域为条件,但是,由于它将被包含在与代理相同的级别,或者重定向到原始域,这应该非常简单。这是一个很好的方法,可以确保网站的管理部分永远不会被索引,而不必在robots.txt中列出,它会告诉黑客在哪里可以找到它。这很有趣,我不知道这个标签。要解决这个问题,需要以请求域为条件,但是,由于它将被包括在与代理相同的级别,或者重定向到原始域,这应该非常简单。这是一个很好的方法,可以确保网站的管理部分永远不会被索引,而不必在robots.txt中列出,它会告诉黑客在哪里可以找到它。这只是针对子域。这不是我的经验可交换地使用多个域名的网站。这仅适用于子域。这不是我对可交换地使用多个域名的网站的经验。