Seo 要阻止爬虫的子域与子目录

Seo 要阻止爬虫的子域与子目录,seo,indexing,search-engine,web-crawler,Seo,Indexing,Search Engine,Web Crawler,我在谷歌上搜索了很多,读了很多文章,但反应不一 我有点困惑,如果我想让搜索引擎阻止我网站的某个部分被索引,那么哪一个是更好的选择。基本上,我对我的网站做了很多更新,也为客户设计,我不希望我上传预览的所有“测试数据”都被编入索引,以避免重复内容的问题 我应该使用子域并阻止整个子域吗 或 创建一个子目录并使用robots.txt阻止它 我是网页设计新手,对使用子域有点不安全(在某个地方读到,这是一个稍微高级的过程,即使是一个小小的错误也会有很大的后果,而且Matt Cutts也提到了类似的东西():

我在谷歌上搜索了很多,读了很多文章,但反应不一

我有点困惑,如果我想让搜索引擎阻止我网站的某个部分被索引,那么哪一个是更好的选择。基本上,我对我的网站做了很多更新,也为客户设计,我不希望我上传预览的所有“测试数据”都被编入索引,以避免重复内容的问题

  • 我应该使用子域并阻止整个子域吗

  • 创建一个子目录并使用
    robots.txt
    阻止它

  • 我是网页设计新手,对使用子域有点不安全(在某个地方读到,这是一个稍微高级的过程,即使是一个小小的错误也会有很大的后果,而且Matt Cutts也提到了类似的东西():

    “我建议使用子目录,直到你开始感觉漂亮为止 对你网站的架构充满信心。在这一点上,你将 更好地为您自己的站点做出正确的决策。”

    但另一方面,我对使用
    robots.txt
    以及任何人都可以访问该文件犹豫不决

    两者的利弊是什么

    目前我的印象是,谷歌对这两个方面的处理类似,最好是使用
    robots.txt
    的子目录,但在“冒险”之前,我想听听第二种意见。

    要么你要求机器人不要为你的内容编制索引(→ 或者你把所有人都锁在外面(→ 密码保护)

    对于此决定,您是否使用单独的子域或文件夹无关紧要。您可以同时使用robots.txt或密码保护。请注意,robots.txt必须始终放在文档根目录中

    使用robots.txt并不能保证,这只是一个礼貌的请求。礼貌的机器人会尊重它,其他人不会。人类用户仍然可以访问你的“不允许”页面。即使是那些尊重你的robots.txt的机器人(例如谷歌)也可能在搜索中链接到你的“不允许”内容(不过他们不会为内容编制索引)


    使用登录机制可以保护您的页面免受所有机器人程序和访问者的攻击。

    如果您将其置于联机状态,则假定有人会复制它。Robots.txt是可选的-不道德的搜索引擎可以并且只会忽略它。在“测试区域”上输入用户名/密码如果它必须是已部署站点的一部分。谢谢这是非常有用的信息,那么我想我会选择密码保护。