我应该允许还是不允许robot抓取GWT缓存文件，如'*cache.js'；？_Gwt_Web Crawler

我应该允许还是不允许robot抓取GWT缓存文件，如'*cache.js'；？

gwt web-crawler

我应该允许还是不允许robot抓取GWT缓存文件，如'*cache.js'；？,gwt,web-crawler,Gwt,Web Crawler,我有一个GWT（Google Web Toolkit）应用程序，一些文件（cache.js、nocache.js…）是在war/my_project目录下生成的。我正在使用robots.txt文件，我已将： User-agent: * Disallow: /my_project/ 那好吗？我的意思是，我想确保它不会阻止机器人抓取我网站的URL。。。我只是有一个疑问，即使我已经尝试通过网站管理员工具，我确认机器人可以抓取我的网址我的问题是，我在问自己，如果机器人无法访问生成这些url的源代码（

我有一个GWT（Google Web Toolkit）应用程序，一些文件（cache.js、nocache.js…）是在war/my_project目录下生成的。我正在使用robots.txt文件，我已将：

User-agent: *
Disallow: /my_project/

那好吗？我的意思是，我想确保它不会阻止机器人抓取我网站的URL。。。我只是有一个疑问，即使我已经尝试通过网站管理员工具，我确认机器人可以抓取我的网址

我的问题是，我在问自己，如果机器人无法访问生成这些url的源代码（应用程序本身，也就是*cache.js和*nocache.js），它如何能够抓取我的url

谢谢你，

Axel

据我所知，爬虫程序仍然不使用javascript。他们看不到你的GWT。如果他们对*.js进行爬网，他们只会对源代码编制索引，而不会对结果编制索引，这可能是您不想要的

为了使您的网站具有良好的索引性，您必须确保即使关闭javascript，页面内容也可见。这可能非常烦人，在某些情况下需要使用php或某些服务器端系统来“烧掉”页面的副本

如果您使用HistoryTokens，您可能还需要研究“#！”（hashbang）和“_escape_fragments”的使用，以便正确链接爬虫可以看到的静态/生成网页，以及您希望它们链接的动态gwt等价物

不幸的是，这是一个大兔子洞。

谢谢。我使用网站管理员工具和“获取为谷歌”已成功完成。事实上，我可以点击获取的url并正确地查看我的页面。但也有一种方法可以在“文本模式”下查看此页面，在这里，我不明白为什么我的HTML主页显示。。。我希望看到“文本”生成的所有动态内容，而不是简单的内容。你知道这是正常的还是爬网有问题（我使用#！、谷歌网络工具包）？GWT页面/应用程序通常使用javascript生成。浏览器下载javascript并执行它。javascript的执行将生成页面。网络爬虫下载HTML并可能下载javascript。除非它执行javascript，否则它不会看到页面——通常情况下不会这样。一种解决方案是创建网站的HTML快照，完全用于爬行。这是描述的