.htaccess 为什么谷歌发现一个被robots.txt排除的页面?

.htaccess 为什么谷歌发现一个被robots.txt排除的页面?,.htaccess,robots.txt,web-crawler,.htaccess,Robots.txt,Web Crawler,我正在使用robots.txt从spider中排除一些页面 User-agent: * Disallow: /track.php 当我搜索指向此页面的内容时,谷歌说:“由于该网站的robots.txt–了解更多信息,因此无法提供此结果的描述。” 这意味着robots.txt正在工作。。但是为什么网页的链接仍然被蜘蛛找到呢?我希望没有指向“track.php”页面的链接。。。我应该如何设置robots.txt?(或者像.htaccess之类的东西……)下面是发生的情况: 谷歌机器人在另一个页

我正在使用robots.txt从spider中排除一些页面

User-agent: * 
Disallow: /track.php
当我搜索指向此页面的内容时,谷歌说:“由于该网站的robots.txt–了解更多信息,因此无法提供此结果的描述。”

这意味着robots.txt正在工作。。但是为什么网页的链接仍然被蜘蛛找到呢?我希望没有指向“track.php”页面的链接。。。我应该如何设置robots.txt?(或者像.htaccess之类的东西……)

下面是发生的情况:

  • 谷歌机器人在另一个页面上看到了track.php的链接。让我们将该页面称为“source.html”
  • Googlebot试图访问您的track.php文件
  • 你的robots.txt告诉Googlebot不要读取该文件
所以谷歌知道source.html链接到track.php,但它不知道track.php包含什么。你没有告诉谷歌不要索引track.php;您告诉Googlebot不要读取track.php中的数据并为其编制索引

作为:

虽然谷歌不会抓取或索引robots.txt阻止的页面内容,但如果我们在web上的其他页面上找到URL,我们仍然可以索引这些URL。因此,该页面的URL以及其他可能公开的信息(如网站链接中的锚文本)或开放目录项目(www.dmoz.org)的标题可以出现在谷歌搜索结果中


你对此无能为力。对于您自己的页面,您可以使用该文档中描述的
x-robots-tag
noindex meta tag
。这将阻止谷歌机器人在你的网页中找到链接时对URL进行索引。但是,如果某个页面没有控制指向track.php文件的链接,那么谷歌很可能会对其进行索引。

如果你访问
domain.com/robots.txt
你会看到你的robots.txt还是404页面?我会看到robots.txt!很好的解释,我刚刚读到了。。我要试试诺因迪斯!(希望没有人链接该页面)。Thanksi看到“noindex”只能与meta标记一起使用,因此它将从该页面的索引中排除所有链接。我会试着用。。它会起作用吗?@AlbertoFecchi:“会起作用吗?”我不知道。谷歌的文档对此并不清楚。我建议你换一页,然后。