Search 在Google中仍然可以找到非索引文件(?)

Search 在Google中仍然可以找到非索引文件(?),search,search-engine,robots.txt,googlebot,Search,Search Engine,Robots.txt,Googlebot,我的页面/admin/login.asp怎么可能在Google中通过查询“inurl:admin/login.asp”找到,而不是通过“site:www.domain.xx”查询找到 我的robots.txt中有这行代码: User-agent: * Disallow: /admin/ 在页面的HTML代码中: <meta name="robots" content="noindex, nofollow" /> 有什么想法吗?你可以检查robots.txt是否被谷歌正确解读。

我的页面/admin/login.asp怎么可能在Google中通过查询“inurl:admin/login.asp”找到,而不是通过“site:www.domain.xx”查询找到

我的robots.txt中有这行代码:

User-agent: *
Disallow: /admin/
在页面的HTML代码中:

<meta name="robots" content="noindex, nofollow" />


有什么想法吗?

你可以检查robots.txt是否被谷歌正确解读。您还可以请求从索引中删除URL。

您可以检查robots.txt是否被谷歌正确解释。您也可以请求从索引中删除URL。

当您在Google搜索结果页面(SERP)中找到URL时,它是否与您的标签中找到的标题相同?它是否也有描述/片段

我认为现在发生的事情是,谷歌从你网站上的链接知道这个URL,所以它会尝试对它进行爬网和索引。但是,由于它被robots.txt阻止,因此不允许对页面进行爬网,因此它无法看到登录页面上的noindex meta标记

由于它不知道不应该为页面编制索引,谷歌将把URL添加到它的索引中。然而,像这样的页面在SERP中往往只有标题和URL,而且几乎总是没有描述/片段。有时,SERP中的标题看起来像是爬过了页面,但实际上他们正在尝试根据指向页面的链接的锚文本生成标题

让页面不显示在SERP中的可靠方法是删除
Disallow:/admin/
命令,并允许Googlebot抓取页面并查看noindex、nofollow meta标记


noindex命令将从SERP中删除页面,nofollow将帮助通知Googlebot不要优先考虑在登录页面上找到的链接(这将有助于保持爬网效率,但不能保证Google不会爬网在页面上找到的链接).

当您在谷歌搜索结果页面(SERP)中找到URL时,它是否与您在标签中找到的标题相同?它是否也有描述/片段

我认为现在发生的事情是,谷歌从你网站上的链接知道这个URL,所以它会尝试对它进行爬网和索引。但是,由于它被robots.txt阻止,因此不允许对页面进行爬网,因此它无法看到登录页面上的noindex meta标记

由于它不知道不应该为页面编制索引,谷歌将把URL添加到它的索引中。然而,像这样的页面在SERP中往往只有标题和URL,而且几乎总是没有描述/片段。有时,SERP中的标题看起来像是爬过了页面,但实际上他们正在尝试根据指向页面的链接的锚文本生成标题

让页面不显示在SERP中的可靠方法是删除
Disallow:/admin/
命令,并允许Googlebot抓取页面并查看noindex、nofollow meta标记



noindex命令将从SERP中删除页面,nofollow将帮助通知Googlebot不要优先考虑在登录页面上找到的链接(这将有助于保持爬网效率,但不能保证Google不会爬网在页面上找到的链接).

在您添加/删除robots.txt之前,该页面是否存在?以htat为例,谷歌可能需要一段时间来适应这一变化。不,两个网站都是4个月前同时上传的。还有,为什么“inurl”和“site”命令之间有区别?在添加/添加robots.txt之前,页面是否存在?以htat为例,谷歌可能需要一段时间来适应这一变化。不,两个网站都是4个月前同时上传的。还有,为什么“inurl”和“site”命令之间有区别呢?是的,GWT对它的解释是正确的。如果我看到“爬行错误”,我甚至会在“2010年7月19日”的页面上看到一句话“URL restricted by robots.txt”,我当然可以请求删除。但我想知道为什么会找到它。现在,在有人试图入侵我的网站(??)后,我不得不请求删除:-(@waanders:request a remove并问谷歌为什么它仍然被找到。我做了,我的请求正在等待。怎么能问谷歌这个问题?谷歌已经接受了我的请求,页面上不再有“inurl”查询。我仍然想知道为什么“inurl:”和“site:“命令。是的,GWT正确解释了它。如果我看“爬行错误”,我甚至会在“2010年7月19日”的页面上看到“URL受限于robots.txt”这句话。我当然可以请求删除。但我想知道为什么会找到它。现在我不得不在有人试图入侵我的网站(??)后请求删除:-(@waanders:request a remove并问谷歌为什么它仍然被找到。我做了,我的请求正在等待。怎么能问谷歌这个问题?谷歌已经接受了我的请求,页面上不再有“inurl”查询。我仍然想知道为什么“inurl:”和“site:"命令。我不知道。我无法再检查这一点,因为谷歌已经接受了我的删除请求,但删除了不允许的:/admin/?可能,但这是为了防止页面被索引?无论如何,感谢您的帮助和帮助thoughts@waandersrobots.txt中的disallow命令不会阻止页面被索引,但会阻止将页面内容从索引中删除。这是一个细微的区别,但意义重大。搜索引擎会将URL添加到其索引中,甚至会显示流行的URL,即使他们从未见过页面内容。防止内容和URL显示在SERP中的唯一方法是允许爬虫查看页面,对其进行索引,但因此,请参阅noindex命令,它实际上只是意味着,不要在SERP中显示。我不知道。我无法再检查这一点,因为Google已经接受了我的删除请求,但删除了Disallow:/admin/?可能,但它是为了阻止页面