Magento-robots.txt可能会阻止Google网站管理员工具上的URL

Magento-robots.txt可能会阻止Google网站管理员工具上的URL,magento,robots.txt,google-webmaster-tools,Magento,Robots.txt,Google Webmaster Tools,基本上,我的客户Google网站管理员工具上的Magento网站显示了一些非常奇怪的结果,我们注意到,在索引状态页面上,我们有1911页索引。现在这一点似乎是正确的,但当我们单击“高级”选项卡时,它显示我们已阻止了6947个URL。现在我需要问的问题是,当网站只有大约1911个页面被索引时,如何阻止6947个URL 现在我在某个地方读到,被阻止的URL可能是Magento中的重复图像。对我来说,这是有道理的,因为我们的系统中确实有很多重复的图像,但我不确定这是否是阻止URL的原因 另一个问题可能

基本上,我的客户Google网站管理员工具上的Magento网站显示了一些非常奇怪的结果,我们注意到,在索引状态页面上,我们有1911页索引。现在这一点似乎是正确的,但当我们单击“高级”选项卡时,它显示我们已阻止了6947个URL。现在我需要问的问题是,当网站只有大约1911个页面被索引时,如何阻止6947个URL

现在我在某个地方读到,被阻止的URL可能是Magento中的重复图像。对我来说,这是有道理的,因为我们的系统中确实有很多重复的图像,但我不确定这是否是阻止URL的原因

另一个问题可能是robots.txt文件本身。因此,我决定查看该文件,所有内容看起来都很好,但是像“Disallow:/404/”这样的每一行都可能指向错误的方向

客户端网站基于服务器的根目录,因此在网站的'public\u html'部分,我认为'/404/'部分可能是根目录。因此,我是否必须将网站文件夹名称添加到robots.txt文件中每行的开头,例如:/[folder_name]/404/

如果有人能帮我弄明白这一点,我将不胜感激,我觉得自己撞到了墙。我认为Magento版本是1.5版,如果这有帮助的话

再次感谢你的帮助

ROBOTS.TXT文件代码

User-agent: *

Allow: /
Sitemap: http://www.websitename/sitemap.xml

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
# Paths (no clean URLs)
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?invis=
Disallow: /*?tag=
Disallow: /*?osCsid=
Disallow: /*?manufacturers_id=
Disallow: /*?currency= 

服务器如何处理文件夹并不重要

如果您的robots.txt可从
http://example.com/robots.txt
,类似于
禁止:/404/
的规则将阻止

  • http://example.com/404/
  • http://example.com/404/foo
  • http://example.com/404/foo/bar
  • 等等

还要注意,记录中不能有换行符,因此

用户代理:*
允许:/
网站地图:http://www.websitename/sitemap.xml
#目录
不允许:/404/
应该是:

用户代理:*
允许:/
网站地图:http://www.websitename/sitemap.xml
#目录
不允许:/404/

而且您似乎不需要
Allow://
(它不是原始robots.txt规范的一部分,但即使对于理解
Allow
的解析器,默认情况下允许任何不允许的内容)


现在我需要问的问题是,当网站只有大约1911页索引时,如何阻止6947个URL

我在这里跟不上你。虽然谷歌可能仍然索引但不会抓取被阻止的URL,但并非所有被阻止的URL都会发生这种情况。因此,索引URL的数量通常不会包括所有被阻止的URL。由于谷歌不允许访问/抓取被封锁的URL,它不可能知道这些URL是否存在或有多少存在。谷歌在查找指向这些URL的链接时(从您的站点内部以及外部站点)会了解这些URL


因此,如果有100个指向路径以
/poll/
开头的不同URL的链接,Google可能会将这100个URL列为阻止的URL。

您的站点地图可能与robots.txt文件冲突

谷歌试图索引sitemap.xml文件中的所有内容,但发现它无法索引被robots.txt文件阻止的页面

在我的例子中,站点地图包含以/catalog/product/view开头的页面,这些页面被robots.txt阻止。 如果你在robots.txt中注释掉这一行,谷歌可以抓取这些产品。
仍然存在的问题是,magento应该有比这些更好的url(以类别名称开始,而不是以/catalog/product/view开始)

在站点上可能更幸运。登录网站管理员工具后,请转到“爬网”下的“阻止url”部分,在那里,你可以准确地找到你的robots.txt中的哪一行对你的网站造成了什么影响。你应该仔细查看你的robots.txt,它有很多甚至不需要的规则。嗯
Disallow:/catalog/category/view/Disallow:/catalog/product/view/
可能会让网站无法想象。您认为被阻止的URL可能是由robots.txt文件中的某些内容造成的吗?我不打算在Magento中使用robots文件,并且有某些页面需要阻塞等。@leeaseman:Each
Disallow
规则行都可能导致这种情况;这就是使用
禁止
的全部意义,不是吗?