我应该允许还是不允许robot抓取GWT缓存文件,如'*cache.js';?

我应该允许还是不允许robot抓取GWT缓存文件,如'*cache.js';?,gwt,web-crawler,Gwt,Web Crawler,我有一个GWT(Google Web Toolkit)应用程序,一些文件(cache.js、nocache.js…)是在war/my_project目录下生成的。我正在使用robots.txt文件,我已将: User-agent: * Disallow: /my_project/ 那好吗?我的意思是,我想确保它不会阻止机器人抓取我网站的URL。。。我只是有一个疑问,即使我已经尝试通过网站管理员工具,我确认机器人可以抓取我的网址 我的问题是,我在问自己,如果机器人无法访问生成这些url的源代码(

我有一个GWT(Google Web Toolkit)应用程序,一些文件(cache.js、nocache.js…)是在war/my_project目录下生成的。我正在使用robots.txt文件,我已将:

User-agent: *
Disallow: /my_project/
那好吗?我的意思是,我想确保它不会阻止机器人抓取我网站的URL。。。我只是有一个疑问,即使我已经尝试通过网站管理员工具,我确认机器人可以抓取我的网址

我的问题是,我在问自己,如果机器人无法访问生成这些url的源代码(应用程序本身,也就是*cache.js和*nocache.js),它如何能够抓取我的url

谢谢你,
Axel

据我所知,爬虫程序仍然不使用javascript。他们看不到你的GWT。 如果他们对*.js进行爬网,他们只会对源代码编制索引,而不会对结果编制索引,这可能是您不想要的

为了使您的网站具有良好的索引性,您必须确保即使关闭javascript,页面内容也可见。这可能非常烦人,在某些情况下需要使用php或某些服务器端系统来“烧掉”页面的副本

如果您使用HistoryTokens,您可能还需要研究“#!”(hashbang)和“_escape_fragments”的使用,以便正确链接爬虫可以看到的静态/生成网页,以及您希望它们链接的动态gwt等价物


不幸的是,这是一个大兔子洞。

谢谢。我使用网站管理员工具和“获取为谷歌”已成功完成。事实上,我可以点击获取的url并正确地查看我的页面。但也有一种方法可以在“文本模式”下查看此页面,在这里,我不明白为什么我的HTML主页显示。。。我希望看到“文本”生成的所有动态内容,而不是简单的内容。你知道这是正常的还是爬网有问题(我使用#!、谷歌网络工具包)?GWT页面/应用程序通常使用javascript生成。浏览器下载javascript并执行它。javascript的执行将生成页面。网络爬虫下载HTML并可能下载javascript。除非它执行javascript,否则它不会看到页面——通常情况下不会这样。一种解决方案是创建网站的HTML快照,完全用于爬行。这是描述的