Indexing 谷歌仍在索引唯一的URL

Indexing 谷歌仍在索引唯一的URL,indexing,robots.txt,google-webmaster-tools,Indexing,Robots.txt,Google Webmaster Tools,我已经设置了robots.txt文件 User-agent: * Disallow: /* 对于一个基于唯一URL的站点。有点像当你保存一个新的小提琴时,它会给它一个唯一的URL。我希望我的所有独特的网址是不可见的谷歌。没有索引 谷歌已经为我所有的唯一URL编制了索引,尽管它说“由于该网站的robots.txt文件,无法提供此结果的描述。-了解更多信息” 但这仍然很糟糕,因为所有的URL都在那里,而且可以点击,所以里面的所有数据都是可用的。我该怎么做才能1)从谷歌上删除这些URL,2)阻止谷歌

我已经设置了robots.txt文件

User-agent: *
Disallow: /*
对于一个基于唯一URL的站点。有点像当你保存一个新的小提琴时,它会给它一个唯一的URL。我希望我的所有独特的网址是不可见的谷歌。没有索引

谷歌已经为我所有的唯一URL编制了索引,尽管它说“由于该网站的robots.txt文件,无法提供此结果的描述。-了解更多信息”


但这仍然很糟糕,因为所有的URL都在那里,而且可以点击,所以里面的所有数据都是可用的。我该怎么做才能1)从谷歌上删除这些URL,2)阻止谷歌为这些URL编制索引。

Robots.txt告诉搜索引擎不要对页面进行爬网,但这并不能阻止他们为页面编制索引,特别是当有其他网站的页面链接时。如果您的主要目标是保证这些页面永远不会出现在搜索结果中,那么您应该使用。带有“noindex”的robots元标记表示“根本不索引此页面”。阻止robots.txt中的页面意味着“不要从服务器请求此页面”

添加robots元标记后,您需要更改robots.txt文件以不再禁止页面。否则,robots.txt文件将阻止爬虫加载页面,从而阻止它查看元标记。在您的情况下,只需将robots.txt文件更改为:

User-agent: *
Disallow:
(或者完全删除robots.txt文件)


如果出于某种原因,robots元标记不是一个选项,那么您也可以使用X-robots-Tag标题来完成同样的事情。

太好了!你能详细说明一下“从robots.txt中删除页面”有什么语法吗?这就像是4000页,你只需要更改robots.txt就可以不再阻塞页面。在您的情况下,这是一个简单的单行更改。我编辑了答案以澄清问题。然后给谷歌一周左右的时间?至少给它几周时间。你需要给谷歌时间来注意robots.txt的变化,然后抓取每个索引页面,然后从索引中删除每个页面。