Python 在不重叠的时间序列数据中查找总持续时间

Python 在不重叠的时间序列数据中查找总持续时间,python,Python,我有一个带有开始和结束时间戳的记录列表,如下所示: [{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...] def get_collapsed_ranges(ranges): ranges = iter(sorted(ranges)) current_range = next(ranges) for start, end in ranges: if start

我有一个带有开始和结束时间戳的记录列表,如下所示:

[{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...]
def get_collapsed_ranges(ranges):
    ranges = iter(sorted(ranges))
    current_range = next(ranges)
    for start, end in ranges:
        if start > current_range[1]:
            yield current_range
            current_range = [start, end]
        elif end > current_range[1]:
            current_range[1] = end
    yield current_range
这些时间段可以重叠,我不知道如何找到没有重叠的总持续时间。例如:

BEGIN END
03:00 03:03
03:02 03:05
03:04 03:05
03:01 03:06
03:08 03:10

0 - 3
  2    -  5
      4 - 5
 1    -     6
               8 - 10
总计=8分钟


我想我可以通过找出差距来做到这一点,但是如何做到呢

我将处理在常规浮动中获取范围的问题,它应该可以很容易地扩展到datetime

假设数据是一系列
[开始,结束]
列表。如果不是这种格式,您可以轻松地将其转换为这种格式

首先,我将按开始时间对数据进行排序。这使事情变得更容易,因为您现在知道,索引
i+1
处的范围只能扩展索引
i
处的范围,被索引
i
处的范围所包围,或者将其开始作为下一个折叠范围的开始

接下来,我将查看当前索引和下一个索引的范围的开始和结束。如果下一个索引的开头在当前范围内,则可以将其折叠为一个索引。继续这样做,直到下一个索引的开始不在当前范围内,然后生成当前范围。我认为应该是这样的:

[{u'end_time': 1444197616.0, u'start_time': u'2015-10-07T05:59:58Z'}, ...]
def get_collapsed_ranges(ranges):
    ranges = iter(sorted(ranges))
    current_range = next(ranges)
    for start, end in ranges:
        if start > current_range[1]:
            yield current_range
            current_range = [start, end]
        elif end > current_range[1]:
            current_range[1] = end
    yield current_range
我没有对此进行过广泛的测试,但它至少对您的测试数据有效:

>>> list(get_collapsed_ranges([[0,3], [2,5], [4,5], [1,6], [8,10]]))
[[0, 6], [8, 10]]

当然,从这里开始,为了得到总的持续时间,你可以将折叠范围和Bob的叔叔之间的差异相加。

你的
结束时间
都在时间戳中,
开始时间
都在
'2015-10-07T05:59:58Z'格式中?