Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/.htaccess/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/visual-studio-2008/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
.htaccess 如何限制网站被索引_.htaccess_Search_Indexing_Robots.txt - Fatal编程技术网

.htaccess 如何限制网站被索引

.htaccess 如何限制网站被索引,.htaccess,search,indexing,robots.txt,.htaccess,Search,Indexing,Robots.txt,我知道这个问题被问了很多次,但我想说得更具体一些 我有一个开发域,并将该站点移动到一个子文件夹中。比如说: http://www.example.com/ 致: 所以我不希望子文件夹被搜索引擎索引。我已将robots.txt和以下内容放在子文件夹中(我可以将其放在子文件夹中,还是必须始终放在根目录下,因为我希望根目录下的内容对搜索引擎可见): 也许我需要替换它并在根目录中添加以下内容: User-agent: * Disallow: /backup 另一件事是,我在某个地方读到,某些机器人不

我知道这个问题被问了很多次,但我想说得更具体一些

我有一个开发域,并将该站点移动到一个子文件夹中。比如说:

http://www.example.com/
致:

所以我不希望子文件夹被搜索引擎索引。我已将robots.txt和以下内容放在子文件夹中(我可以将其放在子文件夹中,还是必须始终放在根目录下,因为我希望根目录下的内容对搜索引擎可见):

也许我需要替换它并在根目录中添加以下内容:

User-agent: *
Disallow: /backup
另一件事是,我在某个地方读到,某些机器人不尊重robots.txt文件,所以将.htaccess文件放在/backup文件夹中就可以了吗

Order deny,allow
Deny from all

有什么想法吗?

这将阻止该目录被索引:

User-agent: *
Disallow: /backup/
此外,您的robots.txt文件必须放在域的根目录中,因此在这种情况下,该文件将放在您可以通过转到访问浏览器的位置

顺便说一下,你可能想考虑为你的开发站点设置一个子域名,比如。这样做将允许您将开发人员与生产环境完全分离,还将确保您的环境更加匹配

例如,从开发到生产,JavaScript文件、CSS、图像或其他资源的任何绝对路径可能都不相同,这可能会导致一些问题

有关如何配置此文件的详细信息,请参阅网站。祝你好运

作为最后一个和最后一个注释,有一个部分您可以:

要查看Google已阻止哪些URL爬网,请访问网站管理员工具健康部分的阻止URL页面


我强烈建议您使用此工具,因为错误配置的robots.txt文件可能会对您网站的性能产生重大影响。

您好,谢谢您的评论和提醒。不过有一个问题,我是否需要在dev子域中添加一个disallow:,这样文件就不会被索引?我只想在制作中使用它。。。还有,来自dev子域的重复内容呢?Hi Ilian,这取决于服务器是公共的还是防火墙后面的。当然,防火墙后面会更安全,因为您不必担心robots文件。虽然在重复内容问题上存在一些争议,但为了安全起见,我们尽可能避免这种情况。如果要在dev上安装robots.txt,一个建议是动态生成它。如果你必须记住在部署站点之前编辑它,那么如果谷歌机器人点击“禁止所有条目”,手动过程可能会再次困扰你。谢谢你的回复@jmort253!我想知道的最后一件事。。。我想要一个“秘密”目录。显然,如果我把它放在robots.txt中,任何人都可以打开robots.txt并猜测它。该目录中只有一个文件,所以我在其中放了一个带有noindex、nofollow的meta robots,但当我转到Google Webmaster Tools->Blocked URL并尝试获取该页面时,它说Google Bot允许使用它。为什么?互联网上80端口上的文件夹都不是真正的秘密。默默无闻的安全真的一点也不秘密。你真正需要的是某种需要登录和密码的安全性。。。但是,为了回答您的问题,我认为您可以做相反的事情:使用
禁止:
,然后添加
允许:/path
异常。但风险在于您可能会忘记允许声明。我的建议是,在走这条路之前,一定要自己做大量的研究。我讨厌听到你做一些对你的网站有负面影响的事情;)不,这是我想要它完成的原因:)管理员位于,这很容易猜测。有安全登录,ssl激活和用户锁定30分钟的3次尝试,但我想介绍一种更多的“网关”,使您不能直接进入/admin和登录。所以我创建了这个文件夹,并在其中放置了一个简单的文件,以设置一个会话变量,该变量允许您转到/admin,而不会被重定向。你明白我的意思吗?
Order deny,allow
Deny from all
User-agent: *
Disallow: /backup/