如何防止Google在URL中索引会话ID？_Url_Session_Web Crawler_Sessionid

如何防止Google在URL中索引会话ID？

url session web-crawler

如何防止Google在URL中索引会话ID？,url,session,web-crawler,sessionid,Url,Session,Web Crawler,Sessionid,我的一个网站是针对不接受cookies的旧手机的，因此它使用基于URL的会话ID 然而，Google正在为会话ID编制索引，所以当在Google上搜索我的站点时，所有结果都会显示一个特定的会话ID 在大多数情况下，当客户点击会话ID时，该会话ID不再有效，但我至少遇到过一个案例，客户点击了来自谷歌的链接，它实际上将其登录到了其他人的帐户，这显然是一个巨大的安全缺陷那么，我怎样才能防止Google在我的URL中索引会话ID呢？如果有帮助，会话ID在Google的网站管理员工具中始终设置为“代表性

我的一个网站是针对不接受cookies的旧手机的，因此它使用基于URL的会话ID

然而，Google正在为会话ID编制索引，所以当在Google上搜索我的站点时，所有结果都会显示一个特定的会话ID

在大多数情况下，当客户点击会话ID时，该会话ID不再有效，但我至少遇到过一个案例，客户点击了来自谷歌的链接，它实际上将其登录到了其他人的帐户，这显然是一个巨大的安全缺陷

那么，我怎样才能防止Google在我的URL中索引会话ID呢？如果有帮助，会话ID在Google的网站管理员工具中始终设置为“代表性URL”。

您可以通过在根web目录中放置robots.txt文件来实现这一点，告诉Googlebot和所有其他爬虫不要使用该属性对URL进行爬网

以下是一个例子：

假设要阻止的URL的形式为：

http://www.mywebsite.com/page.html?id=1234

使用id属性阻止URL的robots.txt语法为：

User-agent: *
Disallow: /*id

有关robots.txt的更多信息，请访问

请在

上阅读更多相关信息查看此内容，您可以设置规范url，google bot将使用此url对您的网页进行爬网，这也可以解决同一网页的重复url问题。

此解决方案的问题是，我的所有url（就google而言）的url中都有会话ID，因此，这将阻止谷歌机器人爬虫的所有页面。我需要的解决方案是Google在没有会话ID的情况下索引URL。这可能吗？您仍然需要相同的robots.txt文件来保持爬虫跟随具有会话ID属性的URL的入站链接。我建议您在站点中添加一个站点地图，并确保在Google的webwaster工具中注册的URL没有session ID属性。我发布的答案中的第二个链接显示了如何在robots.txt中指定站点地图。请不要只发布链接答案