如何使用Python在一个时间段内对行进行分组_Python_Datetime_Pandas_Grouping_Python Datetime

如何使用Python在一个时间段内对行进行分组

python datetime pandas

如何使用Python在一个时间段内对行进行分组,python,datetime,pandas,grouping,python-datetime,Python,Datetime,Pandas,Grouping,Python Datetime,我有一些事务的DataFrame。我想根据项目和时间列值对这些事务进行分组：目标是对彼此相隔1小时的项目进行分组。因此，我们在下一次观察时开始了一个新的组，该时间段不在观察前一个小时内（请参见DataFrameB中的start time列）以下是数据：我想将A转换为B A= item time result A 2016-04-18 13:08:25 Y A 2016-04-18 13:57:05 N A 2016-04-18 14:00:12

我有一些事务的

DataFrame

。我想根据

项目

和

时间

列值对这些事务进行分组：目标是对彼此相隔1小时的项目进行分组。因此，我们在下一次观察时开始了一个新的组，该时间段不在观察前一个小时内（请参见

DataFrame

中的

start time

列）

以下是数据：我想将

转换为

A=
item    time             result
A   2016-04-18 13:08:25  Y
A   2016-04-18 13:57:05  N
A   2016-04-18 14:00:12  N
A   2016-04-18 23:45:50  Y
A   2016-04-20 16:53:48  Y
A   2016-04-20 17:11:47  N
B   2016-04-18 15:24:48  N
C   2016-04-23 13:20:44  N
C   2016-04-23 14:02:23  Y


B=
item    start time            end time      Ys  Ns  total count
A   2016-04-18 13:08:25 2016-04-18 14:08:25 1   2   3
A   2016-04-18 23:45:50 2016-04-18 00:45:50 1   0   1
A   2016-04-20 16:53:48 2016-04-20 17:53:48 1   1   2
B   2016-04-18 15:24:48 2016-04-18 16:24:48 0   1   1
C   2016-04-23 13:20:44 2016-04-23 14:20:44 1   1   2

以下是我所做的：

grouped = A.groupby('item')
A['end'] = (grouped['time'].transform(lambda grp: grp.min()+pd.Timedelta(hours=1)))
A2 = A.loc[(A['time'] <= A['end'])]

grouped=A.groupby（'item'））
A['end']=（分组的['time'].transform（lambda-grp:grp.min（）+pd.Timedelta（小时=1）））
A2=A.loc[（A['time']1）设置一个窗口结束
列供以后与.groupby（）
一起使用，并定义.get\u windows（）
检查每个项目
组的行
是否适合当前的1小时窗口，或者不做任何操作并保留初始化值。适用于所有项目
组：
df['window_end'] = df.time + pd.Timedelta('1H')

def get_windows(data):
    window_end = data.iloc[0].window_end
    for index, row in data.iloc[1:].iterrows():
        if window_end > row.time:
            df.loc[index, 'window_end'] = window_end
        else:
            window_end = row.window_end

df.groupby('item').apply(lambda x: get_windows(x))

2） 将窗口
和项
与.groupby（）
一起使用，并将.value\u counts（）
作为转置
数据帧
，清理索引
，并添加总计
：
df = df.groupby(['window_end', 'item']).result.apply(lambda x: x.value_counts().to_frame().T)
df = df.fillna(0).astype(int).reset_index(level=2, drop=True)
df['total'] = df.sum(axis=1)

要获得：
                            N  Y  total
window_end          item               
2016-04-18 14:08:25 A    A  2  1      3
2016-04-18 16:24:48 B    B  1  0      1
2016-04-19 00:45:50 A    A  0  1      1
2016-04-20 17:53:48 A    A  1  1      2
2016-04-23 14:20:44 C    C  1  1      2

受Stefan解决方案的启发（+1），我得出了以下结论：
B = (A.groupby(['item', A.groupby('item')['time']
                         .diff().fillna(0).dt.total_seconds()//60//60
               ],
               as_index=False)['time'].min()
)


B[['N','Y']] = (A.groupby(['item', A.groupby('item')['time']
                                    .diff().fillna(0).dt.total_seconds()//60//60
                          ])['result']
                 .apply(lambda x: x.value_counts().to_frame().T).fillna(0)
                 .reset_index()[['N','Y']]
)

输出：
In [178]: B
Out[178]:
  item                time    N    Y
0    A 2016-04-18 13:08:25  3.0  1.0
1    A 2016-04-18 23:45:50  0.0  1.0
2    A 2016-04-20 16:53:48  0.0  1.0
3    B 2016-04-18 15:24:48  1.0  0.0
4    C 2016-04-23 13:20:44  1.0  1.0

PS想法是使用A.groupby（'item'）['time'].diff（）.fillna（0）.dt.total_seconds（）//60//60
作为分组的一部分：
In [179]: A.groupby('item')['time'].diff().fillna(0).dt.total_seconds()//60//60
Out[179]:
0     0.0
1     0.0
2     0.0
3     9.0
4    41.0
5     0.0
6     0.0
7     0.0
8     0.0
Name: time, dtype: float64

安装程序
解决方案
我需要创建几个流程函数：
def set_time_group(df):
    cur_time = pd.NaT
    for index, row in df.iterrows():
        if pd.isnull(cur_time):
            cur_time = row.time
        delta = row.time - cur_time
        if delta.seconds / 3600. < 1:
            df.loc[index, 'time_ref'] = cur_time
        else:
            df.loc[index, 'time_ref'] = row.time
            cur_time = row.time
    return df

def summarize_results(df):
    df_ = df.groupby('result').count().iloc[:, 0]
    df_.loc['total count'] = df_.sum()
    return df_

dfg1 = df.groupby('item').apply(set_time_group)
dfg2 = dfg1.groupby(['item', 'time_ref']).apply(summarize_results)
df_f = dfg2.unstack().fillna(0)

还有很多问题没有回答。比如，在何时开始的一个小时内分组？第一次观察的一个小时？下一个小时如何？它是在最后一个小时结束时开始的？还是我们在下一次观察的时候开始一个新的小时，而不是在之前观察的一个小时内？在你的代码中什么是分组的你明白了吗？@piRSquared我给问题添加了更多的细节来澄清。@MaxU我按项目分组，我把它添加到了问题中。谢谢，是的，很遗憾我不能用小时作为我的分组。谢谢，几句评论。在你的第二步中，windows
应该被window\u end
，和，对吗？你可能还想使用另一个用于你的
result`DataFrame，这样它就不会与列result
错误。没错，在这里编辑时一直在修改代码，这不是一个好主意。现在应该可以工作了。Thatnks@MaxU，我得到了AttributeError:“TimedeltaProperties”对象没有属性“total_seconds”
错误。我有导入日期时间作为dt。
def set_time_group(df):
    cur_time = pd.NaT
    for index, row in df.iterrows():
        if pd.isnull(cur_time):
            cur_time = row.time
        delta = row.time - cur_time
        if delta.seconds / 3600. < 1:
            df.loc[index, 'time_ref'] = cur_time
        else:
            df.loc[index, 'time_ref'] = row.time
            cur_time = row.time
    return df

def summarize_results(df):
    df_ = df.groupby('result').count().iloc[:, 0]
    df_.loc['total count'] = df_.sum()
    return df_

dfg1 = df.groupby('item').apply(set_time_group)
dfg2 = dfg1.groupby(['item', 'time_ref']).apply(summarize_results)
df_f = dfg2.unstack().fillna(0)

print df_f

result                      N    Y  total count
item time_ref                                  
A    2016-04-18 13:08:25  2.0  1.0          3.0
     2016-04-18 23:45:50  0.0  1.0          1.0
     2016-04-20 16:53:48  1.0  1.0          2.0
B    2016-04-18 15:24:48  1.0  0.0          1.0
C    2016-04-23 13:20:44  1.0  1.0          2.0