估计URL的年龄_Url_Caching_Web_Time_Web Crawler

估计URL的年龄

url caching web time web-crawler

估计URL的年龄,url,caching,web,time,web-crawler,Url,Caching,Web,Time,Web Crawler,我有一个URL的集合，我想估计的年龄。让我这样回答这个问题：如何估计查询URL成功的最早时间点（比如GET请求的HTTP状态码200）？我目前正在考虑的解决方案可能是谷歌（或其他爬虫）在他们第一次访问该URL（最好是API）时提供时间戳的某种（公开可用的）方式我知道如何获取谷歌缓存版本的年龄，例如：。但是，由于缓存版本的更新相当频繁，因此这不是很有用。不可能以可靠的方式进行。（好吧，除非你能访问你感兴趣的服务器的所有日志文件。）互联网档案显示它第一次爬网网页。当然，他们的机器人第一次找到

我有一个URL的集合，我想估计的年龄。让我这样回答这个问题：

如何估计查询URL成功的最早时间点（比如GET请求的HTTP状态码200）？

我目前正在考虑的解决方案可能是谷歌（或其他爬虫）在他们第一次访问该URL（最好是API）时提供时间戳的某种（公开可用的）方式

我知道如何获取谷歌缓存版本的年龄，例如：。但是，由于缓存版本的更新相当频繁，因此这不是很有用。

不可能以可靠的方式进行。（好吧，除非你能访问你感兴趣的服务器的所有日志文件。）

互联网档案显示它第一次爬网网页。当然，他们的机器人第一次找到并抓取一个页面可能需要时间，所以大多数索引页面可能要老得多

另请注意：一旦爬虫程序被阻止（例如，通过robots.txt），历史记录/副本将被删除（）：

当直接所有者请求将URL从存档中排除时，该排除具有追溯性和永久性

以可靠的方式是不可能的。（好吧，除非你能访问你感兴趣的服务器的所有日志文件。）

互联网档案显示它第一次爬网网页。当然，他们的机器人第一次找到并抓取一个页面可能需要时间，所以大多数索引页面可能要老得多

另请注意：一旦爬虫程序被阻止（例如，通过robots.txt），历史记录/副本将被删除（）：

当直接所有者请求将URL从存档中排除时，该排除具有追溯性和永久性

以可靠的方式是不可能的。（好吧，除非你能访问你感兴趣的服务器的所有日志文件。）

互联网档案显示它第一次爬网网页。当然，他们的机器人第一次找到并抓取一个页面可能需要时间，所以大多数索引页面可能要老得多

另请注意：一旦爬虫程序被阻止（例如，通过robots.txt），历史记录/副本将被删除（）：

当直接所有者请求将URL从存档中排除时，该排除具有追溯性和永久性

以可靠的方式是不可能的。（好吧，除非你能访问你感兴趣的服务器的所有日志文件。）

互联网档案显示它第一次爬网网页。当然，他们的机器人第一次找到并抓取一个页面可能需要时间，所以大多数索引页面可能要老得多

另请注意：一旦爬虫程序被阻止（例如，通过robots.txt），历史记录/副本将被删除（）：

当直接所有者请求将URL从存档中排除时，该排除具有追溯性和永久性

这对网络分析很有用。你是什么意思？“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成？在我看来，这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗？URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义，IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗？@MattBall:是的，这是你可以做的一件事。然而，我的意图是简单地在页面内容上添加日期。如果您可以假设内容（或内容的特性）自首次发布以来没有发生变化，那么这种情况下就可以使用。事实上，只要求一个页面的第一个缓存版本会更好，但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思？“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成？在我看来，这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗？URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义，IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗？@MattBall:是的，这是你可以做的一件事。然而，我的意图是简单地在页面内容上添加日期。如果您可以假设内容（或内容的特性）自首次发布以来没有发生变化，那么这种情况下就可以使用。事实上，只要求一个页面的第一个缓存版本会更好，但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思？“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成？在我看来，这样的日期/年龄没有太大意义。这是某种“互联网使用权”衡量标准吗？URL索引的唯一日期对搜索引擎来说是有意义的。第一次URL查询的日期毫无意义，IMHO。我想你找不到这样的信息。@Oleg:你不认为Google会存储他们第一次爬网页面的时间戳吗？@MattBall:是的，这是你可以做的一件事。然而，我的意图是简单地在页面内容上添加日期。如果您可以假设内容（或内容的特性）自首次发布以来没有发生变化，那么这种情况下就可以使用。事实上，只要求一个页面的第一个缓存版本会更好，但我认为仅日期一项就有可能比整个页面更高。这对web分析很有用。你是什么意思？“网络分析”对我来说并不是一个真正有意义的短语。你有没有具体的任务要完成？在我看来，这样的日期/年龄没有太大意义。这是某种