Django pandas-对列中具有相同值的连续行进行分组和聚合_Django_Pandas_Dataframe_Pandas Groupby_Aggregation

Django pandas-对列中具有相同值的连续行进行分组和聚合

django pandas dataframe

Django pandas-对列中具有相同值的连续行进行分组和聚合,django,pandas,dataframe,pandas-groupby,aggregation,Django,Pandas,Dataframe,Pandas Groupby,Aggregation,我从数据库中提取了一长串日期时间范围，其中有一个数据框，每个范围都有一个标签。对日期进行排序，使一行的开始日期为前一行的结束日期。一个可行的例子如下： import pandas as pd bins = [{'start': '2020-01-12 00:00:00', 'end': '2020-01-13 00:00:00', 'label': 't3'}, {'start': '2020-01-13 00:00:00', 'end': '2020-01-13 07:00:

我从数据库中提取了一长串日期时间范围，其中有一个数据框，每个范围都有一个标签。对日期进行排序，使一行的开始日期为前一行的结束日期。一个可行的例子如下：

import pandas as pd

bins = [{'start': '2020-01-12 00:00:00', 'end': '2020-01-13 00:00:00', 'label': 't3'},
        {'start': '2020-01-13 00:00:00', 'end': '2020-01-13 07:00:00', 'label': 't2'},
        {'start': '2020-01-13 07:00:00', 'end': '2020-01-13 15:30:00', 'label': 't1'},
        {'start': '2020-01-13 15:30:00', 'end': '2020-01-14 00:00:00', 'label': 't2'},
        {'start': '2020-01-14 00:00:00', 'end': '2020-01-14 07:00:00', 'label': 't2'},
        {'start': '2020-01-14 07:00:00', 'end': '2020-01-14 15:30:00', 'label': 't1'},
        {'start': '2020-01-14 15:30:00', 'end': '2020-01-15 00:00:00', 'label': 't2'},
        {'start': '2020-01-15 00:00:00', 'end': '2020-01-15 07:00:00', 'label': 't2'},
        {'start': '2020-01-15 07:00:00', 'end': '2020-01-15 15:30:00', 'label': 't1'},
        {'start': '2020-01-15 15:30:00', 'end': '2020-01-16 00:00:00', 'label': 't2'},
        {'start': '2020-01-16 00:00:00', 'end': '2020-01-16 07:00:00', 'label': 't2'},
        {'start': '2020-01-16 07:00:00', 'end': '2020-01-16 15:30:00', 'label': 't1'},
        {'start': '2020-01-16 15:30:00', 'end': '2020-01-17 00:00:00', 'label': 't2'},
        {'start': '2020-01-17 00:00:00', 'end': '2020-01-17 07:00:00', 'label': 't2'},
        {'start': '2020-01-17 07:00:00', 'end': '2020-01-17 15:30:00', 'label': 't1'},
        {'start': '2020-01-17 15:30:00', 'end': '2020-01-18 00:00:00', 'label': 't2'},
        {'start': '2020-01-18 00:00:00', 'end': '2020-01-19 00:00:00', 'label': 't2'}]
bins_df = pd.DataFrame(bins)

请注意，有些标签是连续重复的，例如，第4行和第5行具有相同的标签。因此，标签

't2'

适用于

2020-01-13 15:30:00

到

2020-01-14 07:00:00

的范围。使用pandas，我如何对具有相同标签的连续行进行分组/聚合，并采用最小的

开始值

，和maximum

end

将连续的日期范围与相同的标签组合起来？

首先，我们使用

系列。shift

与

系列。cumsum

为每个连续的

标签

值创建一个组指示器

然后我们将

groupby.agg

与

min

和

max

一起使用

label_groups = bins_df['label'].ne(bins_df['label'].shift()).cumsum()

df = (
    bins_df.groupby(label_groups).agg({'start':'min', 'end':'max', 'label':'first'})
           .reset_index(drop=True)
)

感谢您的代码示例以及对其功能的解释。工作得很好。

                 start                 end label
0  2020-01-12 00:00:00 2020-01-13 00:00:00    t3
1  2020-01-13 00:00:00 2020-01-13 07:00:00    t2
2  2020-01-13 07:00:00 2020-01-13 15:30:00    t1
3  2020-01-13 15:30:00 2020-01-14 07:00:00    t2
4  2020-01-14 07:00:00 2020-01-14 15:30:00    t1
5  2020-01-14 15:30:00 2020-01-15 07:00:00    t2
6  2020-01-15 07:00:00 2020-01-15 15:30:00    t1
7  2020-01-15 15:30:00 2020-01-16 07:00:00    t2
8  2020-01-16 07:00:00 2020-01-16 15:30:00    t1
9  2020-01-16 15:30:00 2020-01-17 07:00:00    t2
10 2020-01-17 07:00:00 2020-01-17 15:30:00    t1
11 2020-01-17 15:30:00 2020-01-19 00:00:00    t2