Robots.txt 为什么在javascript文件上使用robot.txt?

Robots.txt 为什么在javascript文件上使用robot.txt?,robots.txt,Robots.txt,您有什么理由应该或不应该允许访问javascript或css文件吗?特别是常见的文件,如jquery。人们普遍认为搜索引擎每天为给定的站点分配一定的带宽或#个URL。因此,一些网站管理员喜欢阻止来自搜索引擎的JS、CSS和样板图片,以节省带宽,这样Google或Bing将抓取更多页面,而不是不必要的图片 谷歌人马特·卡茨(Matt Cutts)过去曾要求网站管理员不要这样做() 谷歌似乎想知道你的网站在使用和不使用javascript的情况下的具体表现。有大量证据表明,他们正在渲染整个页面,以及

您有什么理由应该或不应该允许访问javascript或css文件吗?特别是常见的文件,如jquery。

人们普遍认为搜索引擎每天为给定的站点分配一定的带宽或#个URL。因此,一些网站管理员喜欢阻止来自搜索引擎的JS、CSS和样板图片,以节省带宽,这样Google或Bing将抓取更多页面,而不是不必要的图片

谷歌人马特·卡茨(Matt Cutts)过去曾要求网站管理员不要这样做()

谷歌似乎想知道你的网站在使用和不使用javascript的情况下的具体表现。有大量证据表明,他们正在渲染整个页面,以及执行在PageLoad上执行的其他javascript(例如Facebook评论)

如果你甚至阻止了普通jQuery文件,Google真的不知道这是一个普通的jQuery实现,或者你是否修改了核心文件,从而改变了体验

我的建议是确保所有的JS、CSS和样板文件图像都来自一个单独的域或CNAME。我会监控谷歌机器人在日志和数据中的爬行,观察他们是否花费大量时间和带宽来爬行这些资产。如果没有,那就让他们继续爬吧

由于每个站点的行为不同,您可以尝试并阻止一些请求量较大的文件,这些文件占用了大量带宽。。。然后观察谷歌的“页面爬网”是否增加。

通常你不应该(或没有必要)禁止访问robots.txt中的JavaScript和CSS文件

然而,搜索引擎(特别是谷歌)在索引JavaScript生成的内容方面越来越出色。在大多数情况下,这是一件好事。另一方面,JavaScript也被用来专门隐藏搜索引擎的内容,因为人们认为搜索引擎没有执行JavaScript。现在可能不再是这样了。然而,有人建议,如果不允许这些特定的JavaScript文件在robots.txt中生成内容,那么您也会阻止搜索引擎生成和查看隐藏的内容——如果这是必要的话


seomofo在2010年6月提出了这项技术,关于。

为什么要这样做?我不知道有哪个搜索引擎对JavaScript文件感兴趣。也许要将它们用作CDN的一种类型?那么你想阻止其他人使用你网站上托管的jQuery文件吗?我认为没有必要将它们添加到您的
robots.txt
。如果你这样做了,例如,谷歌不会在你的网站上运行Ajax,它可能会错过一些按照Ajax加载的内容。不,这将是允许他们使用它们。这就是我想知道的,现在它们被我的robots.txt阻止了,这导致谷歌的即时预览无法正确加载嵌入的youtube视频。让我们看看
robots.txt
文件是否只是为了控制索引的内容?据我所知,如果我
不允许:/*.js$
,这并不意味着爬虫程序将无法加载和执行js文件,它只是意味着不为它们编制索引???@bugmeipper Robots.txt控制爬虫的内容。如果你不允许,这意味着谷歌不会抓取该URL,但是,它仍然可以将该URL放入其索引中。它可能不知道页面上有什么,因为它没有抓取它,但如果谷歌找到指向某个URL的“足够”链接,它可能会决定将其包含在内,并使用链接的锚文本作为上下文,说明该链接的排名以及如何描述该URL。感谢您的澄清。如果我
不允许:/*.css$
当谷歌在爬行
index.php
时,
index.php
仍将由
index.css
设置样式,不是吗?