Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
估计URL的年龄_Url_Caching_Web_Time_Web Crawler - Fatal编程技术网

估计URL的年龄

估计URL的年龄,url,caching,web,time,web-crawler,Url,Caching,Web,Time,Web Crawler,我有一个URL的集合,我想估计的年龄。让我这样回答这个问题: 如何估计查询URL成功的最早时间点(比如GET请求的HTTP状态码200)? 我目前正在考虑的解决方案可能是谷歌(或其他爬虫)在他们第一次访问该URL(最好是API)时提供时间戳的某种(公开可用的)方式 我知道如何获取谷歌缓存版本的年龄,例如:。但是,由于缓存版本的更新相当频繁,因此这不是很有用。不可能以可靠的方式进行。(好吧,除非你能访问你感兴趣的服务器的所有日志文件。) 互联网档案显示它第一次爬网网页。当然,他们的机器人第一次找到

我有一个URL的集合,我想估计的年龄。让我这样回答这个问题:

如何估计查询URL成功的最早时间点(比如GET请求的HTTP状态码200)?

我目前正在考虑的解决方案可能是谷歌(或其他爬虫)在他们第一次访问该URL(最好是API)时提供时间戳的某种(公开可用的)方式


我知道如何获取谷歌缓存版本的年龄,例如:。但是,由于缓存版本的更新相当频繁,因此这不是很有用。

不可能以可靠的方式进行。(好吧,除非你能访问你感兴趣的服务器的所有日志文件。)

互联网档案显示它第一次爬网网页。当然,他们的机器人第一次找到并抓取一个页面可能需要时间,所以大多数索引页面可能要老得多

另请注意:一旦爬虫程序被阻止(例如,通过robots.txt),历史记录/副本将被删除():

当直接所有者请求将URL从存档中排除时,该排除具有追溯性和永久性


以可靠的方式是不可能的。(好吧,除非你能访问你感兴趣的服务器的所有日志文件。)

互联网档案显示它第一次爬网网页。当然,他们的机器人第一次找到并抓取一个页面可能需要时间,所以大多数索引页面可能要老得多

另请注意:一旦爬虫程序被阻止(例如,通过robots.txt),历史记录/副本将被删除():

当直接所有者请求将URL从存档中排除时,该排除具有追溯性和永久性


以可靠的方式是不可能的。(好吧,除非你能访问你感兴趣的服务器的所有日志文件。)

互联网档案显示它第一次爬网网页。当然,他们的机器人第一次找到并抓取一个页面可能需要时间,所以大多数索引页面可能要老得多

另请注意:一旦爬虫程序被阻止(例如,通过robots.txt),历史记录/副本将被删除():

当直接所有者请求将URL从存档中排除时,该排除具有追溯性和永久性


以可靠的方式是不可能的。(好吧,除非你能访问你感兴趣的服务器的所有日志文件。)

互联网档案显示它第一次爬网网页。当然,他们的机器人第一次找到并抓取一个页面可能需要时间,所以大多数索引页面可能要老得多

另请注意:一旦爬虫程序被阻止(例如,通过robots.txt),历史记录/副本将被删除():

当直接所有者请求将URL从存档中排除时,该排除具有追溯性和永久性


这对网络分析很有用。你是什么意思?“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成?在我看来,这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗?URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义,IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗?@MattBall:是的,这是你可以做的一件事。然而,我的意图是简单地在页面内容上添加日期。如果您可以假设内容(或内容的特性)自首次发布以来没有发生变化,那么这种情况下就可以使用。事实上,只要求一个页面的第一个缓存版本会更好,但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思?“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成?在我看来,这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗?URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义,IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗?@MattBall:是的,这是你可以做的一件事。然而,我的意图是简单地在页面内容上添加日期。如果您可以假设内容(或内容的特性)自首次发布以来没有发生变化,那么这种情况下就可以使用。事实上,只要求一个页面的第一个缓存版本会更好,但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思?“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成?在我看来,这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗?URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义,IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗?@MattBall:是的,这是你可以做的一件事。然而,我的意图是简单地在页面内容上添加日期。如果您可以假设内容(或内容的特性)自首次发布以来没有发生变化,那么这种情况下就可以使用。事实上,只要求一个页面的第一个缓存版本会更好,但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思?“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成?在我看来,这样的日期/年龄没有太大意义。这是某种