Url 谷歌看到了它不应该看到的东西';我看不见。为什么?

Url 谷歌看到了它不应该看到的东西';我看不见。为什么?,url,seo,friendly-url,Url,Seo,Friendly Url,出于某种神秘的原因,谷歌为这两个地址编制了索引,这两个地址指向同一个页面: /something/some-text-1055.html 及 /index.php?pg=something&id=1055 (短时间通知-该网站自发布以来就有友好的url,我不知道google是如何找到“index.php?”url的-只有在内容管理系统中才有“不友好”的url,这是受密码限制的) 我能做些什么来解决这个问题?(我有大约1000页是双索引的)有人告诉我在robots.txt文件中使用“disallo

出于某种神秘的原因,谷歌为这两个地址编制了索引,这两个地址指向同一个页面:

/something/some-text-1055.html

/index.php?pg=something&id=1055

(短时间通知-该网站自发布以来就有友好的url,我不知道google是如何找到“index.php?”url的-只有在内容管理系统中才有“不友好”的url,这是受密码限制的)

我能做些什么来解决这个问题?(我有大约1000页是双索引的)有人告诉我在robots.txt文件中使用“disallow:index.php”。
对还是错?还有其他建议吗?

如果您使用,您也会希望不允许这些建议。它们很可能是谷歌从你的文件夹和日志中获取链接的地方。

最好检查请求的URI(
$\u SERVER['REQUEST\u URI']
),如果是
/index.php

你会惊讶于谷歌机器人在索引网站内容方面的普及性和速度。再加上大量CMS系统创建的非预期页面/链接,使得这些链接可能在某个时候被暴露,这是最有可能的罪魁祸首。也有可能你的管理区域没有你想象的那么安全,谷歌机器人就是通过这种方式通过的

这里要做的事情是

  • 如果可能,创建301重定向,从查询字符串样式的URL重定向到规范样式的URL。你是说“嘿,网络机器人/浏览器,以前在这个URL上的内容现在在另一个URL上”

  • 阻止robots.txt中的查询字符串内容。这就像问蜘蛛或其他自动化程序一样“嘿,请不要看这些东西。这些不是你要找的URL”

  • 谷歌显然是一个规范的URL现在通过一个标签在您的页面顶部。考虑将这些添加进来。

  • 至于做行为端正的事情是否是“正确”的事情,谷歌排名。。。谁知道呢。只有“谷歌”知道他们的算法现在是如何工作的,将来也会是如何工作的。所谓谷歌,我指的是一群工程师和高管,他们在搜索应该如何工作的问题上有着相互矛盾的目标。

    更改robots.txt不会有帮助,因为页面已经被索引了

    最好是使用永久重定向(301)


    如果你想删除一个曾经被谷歌索引过的页面,唯一的方法或多或少就是让它返回一条404未找到的消息。

    谷歌现在提供了一种指定页面规范URL的方法。您可以在HTML中使用以下代码告诉Google您的规范URL:

    <link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />
    
    
    
    您可以在Google关于此主题的博客文章中阅读更多关于规范URL的信息,如下所示:
    根据这篇博文,Ask.com、微软Live Search和雅虎!所有这些都支持canonical标记。

    是否可能您正在将表单发布到类似的url,而google只是从源代码中获取该表单?

    canonical url via是一个不错的选择。或者一个网站地图。