Web crawler 谷歌机器人和其他蜘蛛是否总是获取最新的内容?

Web crawler 谷歌机器人和其他蜘蛛是否总是获取最新的内容?,web-crawler,googlebot,http-caching,Web Crawler,Googlebot,Http Caching,我知道使用以下元标记将阻止对web浏览器进行缓存,但不会对代理进行缓存: <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE"> <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE"> 但是,在服务器端使用缓存头将完全阻止缓存 我的页面是简单的.html文件,不是动态的(例如,不是.php)。如果我使用上面的元标记,考虑到代理可能仍然会缓存页面,Googlebot和其他爬行器是否总

我知道使用以下元标记将阻止对web浏览器进行缓存,但不会对代理进行缓存:

<META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
<META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">

但是,在服务器端使用缓存头将完全阻止缓存


我的页面是简单的.html文件,不是动态的(例如,不是.php)。如果我使用上面的元标记,考虑到代理可能仍然会缓存页面,Googlebot和其他爬行器是否总是提取我网站的最新内容,或者他们可能不会提取最新内容,因为我没有在服务器端设置缓存头?

使用元标记,或者HTTP头也没什么不同,因为它们是用来向请求代理传递建议的。 如果代理(GoogleBot或代理)被设置为遵守协议,那么您的页面将不会被缓存

但是,请记住,虽然您要求不缓存页面,但代理和SE bot可能会以不同的方式对事件做出反应

你必须记住,谷歌的范围是索引一个页面,只要他们能够抓取,这可以通过使用或不使用cache标签来完成,尽管阻止缓存被保留可能会导致他们方面的一些复杂情况