Caching 使用Internet缓存的web数据(Google缓存、Wayback机器等)

Caching 使用Internet缓存的web数据(Google缓存、Wayback机器等),caching,webarchive,Caching,Webarchive,我想使用谷歌缓存访问其他网站的网页,即使不去他们 如果我发出这样的查询http://webcache.googleusercontent.com/search?q=cache:,我们可以得到数据 我发现/假设以下情况(问题0。如果有任何错误,请更正): 谷歌可能有也可能没有缓存信息,这取决于网站的策略 如果需要运行javascript,谷歌无论如何都会访问该网站 谷歌只存储文本的前101KB 问题1。我知道谷歌缓存只显示最近抓取的页面,但你知道这些数据有多旧吗 问题2。如果我计划去谷歌缓存获取我

我想使用谷歌缓存访问其他网站的网页,即使不去他们

如果我发出这样的查询
http://webcache.googleusercontent.com/search?q=cache:
,我们可以得到数据

我发现/假设以下情况(问题0。如果有任何错误,请更正):

  • 谷歌可能有也可能没有缓存信息,这取决于网站的策略
  • 如果需要运行javascript,谷歌无论如何都会访问该网站
  • 谷歌只存储文本的前101KB
  • 问题1。我知道谷歌缓存只显示最近抓取的页面,但你知道这些数据有多旧吗

    问题2。如果我计划去谷歌缓存获取我对该网站的所有点击(假设该网站已被缓存,并且我对小旧页面没有问题),是否有任何问题

    问题3。Wayback机器提供数据,但在爬行和显示数据之间有巨大的延迟。是否有任何目录可以让我们获取最近存档的数据(如Wayback machine和Google cache)

    我知道谷歌缓存只显示最近抓取的页面,但你知道这些数据有多旧吗

    在URL中使用运算符

    如果我计划去谷歌缓存获取我对该网站的所有点击(假设该网站已被缓存,并且我对小旧页面没有问题),是否有任何问题

    所有者可以从缓存中请求

    是否有任何目录可供我们获取最近存档的数据


    对于问题3,请使用URL中的查询参数,而以前的情况是,所有Wayback机器web捕获都是6个月前的,这在2012年已经变得不真实,而在2016年则非常不真实。我们有大量的新鲜内容