Magento-robots.txt可能会阻止Google网站管理员工具上的URL_Magento_Robots.txt_Google Webmaster Tools

Magento-robots.txt可能会阻止Google网站管理员工具上的URL

magento

Magento-robots.txt可能会阻止Google网站管理员工具上的URL,magento,robots.txt,google-webmaster-tools,Magento,Robots.txt,Google Webmaster Tools,基本上，我的客户Google网站管理员工具上的Magento网站显示了一些非常奇怪的结果，我们注意到，在索引状态页面上，我们有1911页索引。现在这一点似乎是正确的，但当我们单击“高级”选项卡时，它显示我们已阻止了6947个URL。现在我需要问的问题是，当网站只有大约1911个页面被索引时，如何阻止6947个URL 现在我在某个地方读到，被阻止的URL可能是Magento中的重复图像。对我来说，这是有道理的，因为我们的系统中确实有很多重复的图像，但我不确定这是否是阻止URL的原因另一个问题可能

基本上，我的客户Google网站管理员工具上的Magento网站显示了一些非常奇怪的结果，我们注意到，在索引状态页面上，我们有1911页索引。现在这一点似乎是正确的，但当我们单击“高级”选项卡时，它显示我们已阻止了6947个URL。现在我需要问的问题是，当网站只有大约1911个页面被索引时，如何阻止6947个URL
现在我在某个地方读到，被阻止的URL可能是Magento中的重复图像。对我来说，这是有道理的，因为我们的系统中确实有很多重复的图像，但我不确定这是否是阻止URL的原因
另一个问题可能是robots.txt文件本身。因此，我决定查看该文件，所有内容看起来都很好，但是像“Disallow:/404/”这样的每一行都可能指向错误的方向
客户端网站基于服务器的根目录，因此在网站的'public\u html'部分，我认为'/404/'部分可能是根目录。因此，我是否必须将网站文件夹名称添加到robots.txt文件中每行的开头，例如：/[folder_name]/404/
如果有人能帮我弄明白这一点，我将不胜感激，我觉得自己撞到了墙。我认为Magento版本是1.5版，如果这有帮助的话
再次感谢你的帮助
ROBOTS.TXT文件代码

User-agent: * Allow: / Sitemap: http://www.websitename/sitemap.xml # Directories Disallow: /404/ Disallow: /app/ Disallow: /cgi-bin/ Disallow: /downloader/ Disallow: /includes/ Disallow: /js/ Disallow: /lib/ Disallow: /magento/ Disallow: /pkginfo/ Disallow: /report/ Disallow: /skin/ Disallow: /stats/ Disallow: /var/ # Paths (clean URLs) Disallow: /index.php/ Disallow: /catalog/product_compare/ Disallow: /catalog/category/view/ Disallow: /catalog/product/view/ Disallow: /catalogsearch/ Disallow: /checkout/ Disallow: /control/ Disallow: /contacts/ Disallow: /customer/ Disallow: /customize/ Disallow: /newsletter/ Disallow: /poll/ Disallow: /review/ Disallow: /sendfriend/ Disallow: /tag/ Disallow: /wishlist/ # Files Disallow: /cron.php Disallow: /cron.sh Disallow: /error_log Disallow: /install.php Disallow: /LICENSE.html Disallow: /LICENSE.txt Disallow: /LICENSE_AFL.txt Disallow: /STATUS.txt # Paths (no clean URLs) Disallow: /*?p=*& Disallow: /*?SID= Disallow: /*?invis= Disallow: /*?tag= Disallow: /*?osCsid= Disallow: /*?manufacturers_id= Disallow: /*?currency=

服务器如何处理文件夹并不重要
如果您的robots.txt可从
http://example.com/robots.txt
，类似于
禁止：/404/
的规则将阻止

http://example.com/404/

http://example.com/404/foo

http://example.com/404/foo/bar

等等

还要注意，记录中不能有换行符，因此

用户代理：* 允许：/ 网站地图：http://www.websitename/sitemap.xml #目录不允许：/404/
应该是：

用户代理：* 允许：/ 网站地图：http://www.websitename/sitemap.xml #目录不允许：/404/

而且您似乎不需要
Allow://
（它不是原始robots.txt规范的一部分，但即使对于理解
Allow
的解析器，默认情况下允许任何不允许的内容）

现在我需要问的问题是，当网站只有大约1911页索引时，如何阻止6947个URL
我在这里跟不上你。虽然谷歌可能仍然索引但不会抓取被阻止的URL，但并非所有被阻止的URL都会发生这种情况。因此，索引URL的数量通常不会包括所有被阻止的URL。由于谷歌不允许访问/抓取被封锁的URL，它不可能知道这些URL是否存在或有多少存在。谷歌在查找指向这些URL的链接时（从您的站点内部以及外部站点）会了解这些URL

因此，如果有100个指向路径以
/poll/
开头的不同URL的链接，Google可能会将这100个URL列为阻止的URL。
您的站点地图可能与robots.txt文件冲突
谷歌试图索引sitemap.xml文件中的所有内容，但发现它无法索引被robots.txt文件阻止的页面
在我的例子中，站点地图包含以/catalog/product/view开头的页面，这些页面被robots.txt阻止。如果你在robots.txt中注释掉这一行，谷歌可以抓取这些产品。
仍然存在的问题是，magento应该有比这些更好的url（以类别名称开始，而不是以/catalog/product/view开始）
在站点上可能更幸运。登录网站管理员工具后，请转到“爬网”下的“阻止url”部分，在那里，你可以准确地找到你的robots.txt中的哪一行对你的网站造成了什么影响。你应该仔细查看你的robots.txt，它有很多甚至不需要的规则。嗯
Disallow:/catalog/category/view/Disallow:/catalog/product/view/
可能会让网站无法想象。您认为被阻止的URL可能是由robots.txt文件中的某些内容造成的吗？我不打算在Magento中使用robots文件，并且有某些页面需要阻塞等。@leeaseman:Each
Disallow
规则行都可能导致这种情况；这就是使用
禁止的全部意义，不是吗？