Php 如何阻止谷歌抓取不存在的页面_Php_.htaccess_Web Crawler

Php 如何阻止谷歌抓取不存在的页面

php .htaccess web-crawler

Php 如何阻止谷歌抓取不存在的页面,php,.htaccess,web-crawler,Php,.htaccess,Web Crawler,当我开发我的网站时。例如，我在一个地方输入了一个错误，我所有的页面都是dir1/dir2/page.htm/par1-par2，但我的输入是dir1/dir2/page/par1-par2（注意：没有.htm）它只制作了一天，但谷歌一直在抓取这些链接。如何阻止谷歌这样做顺便说一下，这不是一个页面，而是数百或数千个页面。谷歌有一个表单，你可以要求它从索引中删除一个页面查看此链接上的信息：尝试使用robots.txt拒绝访问此页面（url） test robots.txt此处：如果页面

当我开发我的网站时。例如，我在一个地方输入了一个错误，我所有的页面都是dir1/dir2/page.htm/par1-par2，但我的输入是dir1/dir2/page/par1-par2（注意：没有.htm）

它只制作了一天，但谷歌一直在抓取这些链接。如何阻止谷歌这样做

顺便说一下，这不是一个页面，而是数百或数千个页面。

谷歌有一个表单，你可以要求它从索引中删除一个页面

查看此链接上的信息：

尝试使用robots.txt拒绝访问此页面（url）

test robots.txt此处：

如果页面存在（可能是因为您使用mod_rewrite）并呈现未找到的自定义页面，但未发送http 410 Gone头

头（“http/1.0 410 Gone”）
您需要添加正确的标题或删除页面，或不呈现您自己的404，因此它会点击您的服务器404，然后google将从索引中删除页面，而且删除页面不会在夜间发生：
你也可以将url添加到robots.txt文件中。这也不能保证从索引中删除页面，你可以像其他人所说的那样联系谷歌，但也不能保证得到响应或删除
User-agent: *
Disallow: /dir1/dir2/page/par1-par2

祝你好运。根据其他情况，这应该会起作用。我用一个补码编辑答案，我想要的是阻止/subdir/（不是以.htm结尾）/whatever中的任何内容。怎么做？如果模式匹配有效，这个解决方案应该有效。只是害怕写错字，因为以前从未写过。请在此处查看更多以.htm结尾的内容？在我的例子中，所有链接都是/*.htm/1x-2xyes。使用htaccess重写，因此这些页面从未出现过！page是一个变量，par1-par2也是。只是很多页。必须使用模式匹配Google将它们视为一个页面，当您访问有问题的页面时，如果它输出404 not found（未找到）或410 http头以外的内容，则会将其作为索引。您可以使用Disallow:/dir1/这样url树上的任何页面都不会被索引。希望能有帮助
User-agent: *
Disallow: /dir1/dir2/page/par1-par2