Python 在不重叠的时间序列数据中查找总持续时间
我有一个带有开始和结束时间戳的记录列表,如下所示:Python 在不重叠的时间序列数据中查找总持续时间,python,Python,我有一个带有开始和结束时间戳的记录列表,如下所示: [{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...] def get_collapsed_ranges(ranges): ranges = iter(sorted(ranges)) current_range = next(ranges) for start, end in ranges: if start
[{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...]
def get_collapsed_ranges(ranges):
ranges = iter(sorted(ranges))
current_range = next(ranges)
for start, end in ranges:
if start > current_range[1]:
yield current_range
current_range = [start, end]
elif end > current_range[1]:
current_range[1] = end
yield current_range
这些时间段可以重叠,我不知道如何找到没有重叠的总持续时间。例如:
BEGIN END
03:00 03:03
03:02 03:05
03:04 03:05
03:01 03:06
03:08 03:10
0 - 3
2 - 5
4 - 5
1 - 6
8 - 10
总计=8分钟
我想我可以通过找出差距来做到这一点,但是如何做到呢 我将处理在常规浮动中获取范围的问题,它应该可以很容易地扩展到datetime 假设数据是一系列
[开始,结束]
列表。如果不是这种格式,您可以轻松地将其转换为这种格式
首先,我将按开始时间对数据进行排序。这使事情变得更容易,因为您现在知道,索引i+1
处的范围只能扩展索引i
处的范围,被索引i
处的范围所包围,或者将其开始作为下一个折叠范围的开始
接下来,我将查看当前索引和下一个索引的范围的开始和结束。如果下一个索引的开头在当前范围内,则可以将其折叠为一个索引。继续这样做,直到下一个索引的开始不在当前范围内,然后生成当前范围。我认为应该是这样的:
[{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...]
def get_collapsed_ranges(ranges):
ranges = iter(sorted(ranges))
current_range = next(ranges)
for start, end in ranges:
if start > current_range[1]:
yield current_range
current_range = [start, end]
elif end > current_range[1]:
current_range[1] = end
yield current_range
我没有对此进行过广泛的测试,但它至少对您的测试数据有效:
>>> list(get_collapsed_ranges([[0,3], [2,5], [4,5], [1,6], [8,10]]))
[[0, 6], [8, 10]]
当然,从这里开始,为了得到总的持续时间,你可以将折叠范围和Bob的叔叔之间的差异相加。你的
结束时间
都在时间戳中,开始时间
都在'2015-10-07T05:59:58Z'格式中?