.htaccess 为什么谷歌发现一个被robots.txt排除的页面？_.htaccess_Robots.txt_Web Crawler

.htaccess 为什么谷歌发现一个被robots.txt排除的页面？

.htaccess web-crawler

.htaccess 为什么谷歌发现一个被robots.txt排除的页面？,.htaccess,robots.txt,web-crawler,.htaccess,Robots.txt,Web Crawler,我正在使用robots.txt从spider中排除一些页面 User-agent: * Disallow: /track.php 当我搜索指向此页面的内容时，谷歌说：“由于该网站的robots.txt–了解更多信息，因此无法提供此结果的描述。” 这意味着robots.txt正在工作。。但是为什么网页的链接仍然被蜘蛛找到呢？我希望没有指向“track.php”页面的链接。。。我应该如何设置robots.txt？（或者像.htaccess之类的东西……）下面是发生的情况：谷歌机器人在另一个页

我正在使用robots.txt从spider中排除一些页面

User-agent: * 
Disallow: /track.php

当我搜索指向此页面的内容时，谷歌说：“由于该网站的robots.txt–了解更多信息，因此无法提供此结果的描述。”

这意味着robots.txt正在工作。。但是为什么网页的链接仍然被蜘蛛找到呢？我希望没有指向“track.php”页面的链接。。。我应该如何设置robots.txt？（或者像.htaccess之类的东西……）

下面是发生的情况：

谷歌机器人在另一个页面上看到了track.php的链接。让我们将该页面称为“source.html”
Googlebot试图访问您的track.php文件
你的robots.txt告诉Googlebot不要读取该文件

所以谷歌知道source.html链接到track.php，但它不知道track.php包含什么。你没有告诉谷歌不要索引track.php；您告诉Googlebot不要读取track.php中的数据并为其编制索引

作为：

虽然谷歌不会抓取或索引robots.txt阻止的页面内容，但如果我们在web上的其他页面上找到URL，我们仍然可以索引这些URL。因此，该页面的URL以及其他可能公开的信息（如网站链接中的锚文本）或开放目录项目（www.dmoz.org）的标题可以出现在谷歌搜索结果中

你对此无能为力。对于您自己的页面，您可以使用该文档中描述的

x-robots-tag

或

noindex meta tag

。这将阻止谷歌机器人在你的网页中找到链接时对URL进行索引。但是，如果某个页面没有控制指向track.php文件的链接，那么谷歌很可能会对其进行索引。

如果你访问

domain.com/robots.txt

你会看到你的robots.txt还是404页面？我会看到robots.txt！很好的解释，我刚刚读到了。。我要试试诺因迪斯！（希望没有人链接该页面）。Thanksi看到“noindex”只能与meta标记一起使用，因此它将从该页面的索引中排除所有链接。我会试着用。。它会起作用吗？@AlbertoFecchi：“会起作用吗？”我不知道。谷歌的文档对此并不清楚。我建议你换一页，然后。