Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/289.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/.htaccess/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 如何阻止谷歌抓取不存在的页面_Php_.htaccess_Web Crawler - Fatal编程技术网

Php 如何阻止谷歌抓取不存在的页面

Php 如何阻止谷歌抓取不存在的页面,php,.htaccess,web-crawler,Php,.htaccess,Web Crawler,当我开发我的网站时。例如,我在一个地方输入了一个错误,我所有的页面都是dir1/dir2/page.htm/par1-par2,但我的输入是dir1/dir2/page/par1-par2(注意:没有.htm) 它只制作了一天,但谷歌一直在抓取这些链接。如何阻止谷歌这样做 顺便说一下,这不是一个页面,而是数百或数千个页面。谷歌有一个表单,你可以要求它从索引中删除一个页面 查看此链接上的信息: 尝试使用robots.txt拒绝访问此页面(url) test robots.txt此处: 如果页面

当我开发我的网站时。例如,我在一个地方输入了一个错误,我所有的页面都是dir1/dir2/page.htm/par1-par2,但我的输入是dir1/dir2/page/par1-par2(注意:没有.htm)

它只制作了一天,但谷歌一直在抓取这些链接。如何阻止谷歌这样做


顺便说一下,这不是一个页面,而是数百或数千个页面。

谷歌有一个表单,你可以要求它从索引中删除一个页面

查看此链接上的信息:


尝试使用robots.txt拒绝访问此页面(url)

test robots.txt此处:

如果页面存在(可能是因为您使用mod_rewrite)并呈现未找到的自定义页面,但未发送http 410 Gone头
头(“http/1.0 410 Gone”)
您需要添加正确的标题或删除页面,或不呈现您自己的404,因此它会点击您的服务器404,然后google将从索引中删除页面,而且删除页面不会在夜间发生:

你也可以将url添加到robots.txt文件中。这也不能保证从索引中删除页面,你可以像其他人所说的那样联系谷歌,但也不能保证得到响应或删除

User-agent: *
Disallow: /dir1/dir2/page/par1-par2

祝你好运。

根据其他情况,这应该会起作用。我用一个补码编辑答案,我想要的是阻止/subdir/(不是以.htm结尾)/whatever中的任何内容。怎么做?如果模式匹配有效,这个解决方案应该有效。只是害怕写错字,因为以前从未写过。请在此处查看更多以.htm结尾的内容?在我的例子中,所有链接都是/*.htm/1x-2xyes。使用htaccess重写,因此这些页面从未出现过!page是一个变量,par1-par2也是。只是很多页。必须使用模式匹配Google将它们视为一个页面,当您访问有问题的页面时,如果它输出404 not found(未找到)或410 http头以外的内容,则会将其作为索引。您可以使用Disallow:/dir1/这样url树上的任何页面都不会被索引。希望能有帮助
User-agent: *
Disallow: /dir1/dir2/page/par1-par2