Drupal 7 不允许:/sites/default/files/不适用于我的Drupal网站

Drupal 7 不允许:/sites/default/files/不适用于我的Drupal网站,drupal-7,seo,robots.txt,google-search,Drupal 7,Seo,Robots.txt,Google Search,我目前正在一个Drupal7网站上工作。我在robots.txt文件中添加了以下内容(在#目录部分下) 但当我在谷歌中键入“site:www.example.com filetype:pdf”时,它仍然能够爬进我的/sites/default/files文件夹。有人能帮我弄清楚为什么这些还在被爬网吗 我在这里得到的唯一相关链接是:它不能回答我的问题。试试看 # Directories Disallow: /themes/sites/default/files/ 当你有 Disallow: /

我目前正在一个Drupal7网站上工作。我在robots.txt文件中添加了以下内容(在
#目录
部分下)

但当我在谷歌中键入“site:www.example.com filetype:pdf”时,它仍然能够爬进我的
/sites/default/files
文件夹。有人能帮我弄清楚为什么这些还在被爬网吗

我在这里得到的唯一相关链接是:它不能回答我的问题。

试试看

# Directories
Disallow: /themes/sites/default/files/ 
当你有

Disallow: /sites/default/files/
在robots.txt中,该行所在的记录中有一个与Google的bot匹配的
用户代理
行,则不允许Google对路径以
/sites/default/files/
开头的任何URL进行爬网

但谷歌仍然可以索引这些URL(但不包括内容)。例如,当谷歌发现一个被阻止的页面的链接,或者之前谷歌被允许对页面进行爬网时,这些页面的链接可能仍然会显示在谷歌的搜索结果中

如果谷歌也索引了你页面上的内容,那一定是出了问题

  • 这可能是因为您最近才阻止robots.txt中的URL。如果是这样的话,你只需要等待一段时间,直到谷歌再次抓到你的robots.txt
  • 这可能是因为谷歌没有与该
    Disallow
    行所在的记录匹配。或者是因为你的robots.txt还有其他一些问题(我们需要看看它来回答这个问题)

请记住,谷歌的缓存有效期约为2周,因此您的设置将在该时间段后生效。

第一个解释是有意义的。我最近把它添加到我的robots.txt文件中。对于第二个解释,我为所有用户代理添加了这一点。您可以在此处查看我的robots.txt文件:感谢您抽出时间帮助我。@user3570925:您的robots.txt看起来不错。所以谷歌现在/很快应该停止在这些路径上爬行。但是,正如前面所解释的,您的URL可能会在这之后保留,但不会从页面中获取标题/片段。
Disallow: /sites/default/files/