Python 按小时计算每分钟的平均计数_Python_Pandas_Group By

Python 按小时计算每分钟的平均计数

python pandas

Python 按小时计算每分钟的平均计数,python,pandas,group-by,Python,Pandas,Group By,我有一个数据帧，带有一个时间戳作为索引和一列标签 df=DataFrame({'time':[ datetime(2015,11,2,4,41,10), datetime(2015,11,2,4,41,39), datetime(2015,11,2,4,41,47), datetime(2015,11,2,4,41,59), datetime(2015,11,2,4,42,4), datetime(2015,11,2,4,42,11), datetime(2015,11,2,4

我有一个数据帧，带有一个时间戳作为索引和一列标签

df=DataFrame({'time':[ datetime(2015,11,2,4,41,10),     datetime(2015,11,2,4,41,39), datetime(2015,11,2,4,41,47), 
datetime(2015,11,2,4,41,59), datetime(2015,11,2,4,42,4),     datetime(2015,11,2,4,42,11),
datetime(2015,11,2,4,42,15), datetime(2015,11,2,4,42,30),     datetime(2015,11,2,4,42,39), 
 datetime(2015,11,2,4,42,41),datetime(2015,11,2,5,2,9),datetime(2015,11,2,    5,2,10),
datetime(2015,11,2,5,2,16),datetime(2015,11,2,5,2,29),datetime(2015,11,2,    5,2,51),
datetime(2015,11,2,5,9,1),datetime(2015,11,2,5,9,21),datetime(2015,11,2,5,9,31),
datetime(2015,11,2,5,9,40),datetime(2015,11,2,5,9,55)],
'Label':[2,0,0,0,1,0,0,1,1,1,1,3,0,0,3,0,1,0,1,1]}).set_index(['time'])

我想得到标签在一分钟内出现的平均次数在不远的一小时内

例如，标签0在第41分钟的第4小时出现3次，在第4小时出现2次在第42分钟，
在第2分钟的第5小时内有2次，在第5小时的第9分钟内有2次，因此其平均计数为第四小时的一分钟是

(2+3)/2=2.5

每分钟5小时的计数是

(2+2)/2=2

我正在寻找的输出是

Hour 1
Label  avg
0      2.5
1      2
2       .5
3       0


Hour 2
Label  avg
0      2
1      1.5
2      0
3      1

到目前为止，我得到的是

df['hour']=df.index.hour

hour_grp=df.groupby(['hour'], as_index=False)

然后我可以做一些类似的事情

res=[]
for key, value in hour_grp:
    res.append(value)

然后按分钟分组

res[0].groupby(pd.TimeGrouper('1Min'))['Label'].value_counts()

但这正是我被卡住的地方，更不用说它不是很有效了

首先将数据帧压缩成一个系列（毕竟，它只有一列）：

按分钟计算每个标签出现的次数：

counts_by_min = (s.resample('min')
                  .apply(lambda x: x.value_counts())
                  .unstack()
                  .fillna(0))

#                        0    1    2    3
# time                                   
# 2015-11-02 04:41:00  3.0  0.0  1.0  0.0
# 2015-11-02 04:42:00  2.0  4.0  0.0  0.0
# 2015-11-02 05:02:00  2.0  1.0  0.0  2.0
# 2015-11-02 05:09:00  2.0  3.0  0.0  0.0

重新采样

按小时计数，以获得每个标签按小时出现的次数：
counts_by_hour = counts_by_min.resample('H').sum()

#                        0    1    2    3
# time                                   
# 2015-11-02 04:00:00  5.0  4.0  1.0  0.0
# 2015-11-02 05:00:00  4.0  4.0  0.0  2.0

minutes_by_hour = counts_by_min.astype(bool).resample('H').sum()

#                        0    1    2    3
# time                                   
# 2015-11-02 04:00:00  2.0  1.0  1.0  0.0
# 2015-11-02 05:00:00  2.0  2.0  0.0  1.0

按小时计算每个标签出现的分钟数：
counts_by_hour = counts_by_min.resample('H').sum()

#                        0    1    2    3
# time                                   
# 2015-11-02 04:00:00  5.0  4.0  1.0  0.0
# 2015-11-02 05:00:00  4.0  4.0  0.0  2.0

minutes_by_hour = counts_by_min.astype(bool).resample('H').sum()

#                        0    1    2    3
# time                                   
# 2015-11-02 04:00:00  2.0  1.0  1.0  0.0
# 2015-11-02 05:00:00  2.0  2.0  0.0  1.0

将最后两个除以以获得所需的结果：
avg_per_hour = counts_by_hour.div(minutes_by_hour).fillna(0)

#                        0    1    2    3
# time                                   
# 2015-11-02 04:00:00  2.5  4.0  1.0  0.0
# 2015-11-02 05:00:00  2.0  2.0  0.0  2.0

访问DateTimeIndex的分钟数：
mn = df.index.minute

hr = df.index.hour

访问DateTimeIndex的小时数：
mn = df.index.minute

hr = df.index.hour

通过将上述获得的变量作为键来执行。计算标签下的内容，并用0填充缺少的值。最后，在包含小时值的索引轴上求平均值
df.groupby([mn,hr])['Label'].value_counts().unstack(fill_value=0).mean(level=1)