Python3.6:Pandas—获取数据帧列中较早出现的条目
我有一个熊猫数据框,有两列——“天”和“事件”。每天都可能发生任意数量的事件,每个事件都由一个字符表示。我想构造一个额外的列,指示自上次事件发生以来已经过去了多少天。下面的代码可以说明这一点:Python3.6:Pandas—获取数据帧列中较早出现的条目,python,python-3.x,pandas,Python,Python 3.x,Pandas,我有一个熊猫数据框,有两列——“天”和“事件”。每天都可能发生任意数量的事件,每个事件都由一个字符表示。我想构造一个额外的列,指示自上次事件发生以来已经过去了多少天。下面的代码可以说明这一点: >>> import pandas as pd >>> event_data = pd.DataFrame({'Day':[1,1,1,1,2,2,2,3,3,4,4,4,4], 'Event':['A','B
>>> import pandas as pd
>>> event_data = pd.DataFrame({'Day':[1,1,1,1,2,2,2,3,3,4,4,4,4],
'Event':['A','B','C','D','B','F','A','B','C','G','A','B','D']})
>>> print(event_data)
Day Event
0 1 A
1 1 B
2 1 C
3 1 D
4 2 B
5 2 F
6 2 A
7 3 B
8 3 C
9 4 G
10 4 A
11 4 B
12 4 D
我想要一个额外的专栏“事件发生后的天数”,它看起来像:
Day Event Days_since_event
0 1 A -1
1 1 B -1
2 1 C -1
3 1 D -1
4 2 B 1
5 2 F -1
6 2 A 1
7 3 B 1
8 3 C 2
9 4 G -1
10 4 A 2
11 4 B 1
12 4 D 3
第12行的值为3,因为事件“D”发生在第4天,上一次发生在第1天,这意味着自事件“D”上次发生以来已经过去了3天。值为-1的行表示该事件在该天首次发生
做这件事的最佳计算方法是什么?原始数据集有超过1000万行,使用循环或重复数据子集太慢。您可以按
事件
列对数据帧进行分组,并计算日期
的差异,如下所示:
event_data['Days_since_event'] = event_data.groupby('Event')['Day']\
.diff().fillna(-1).astype(int)
每个事件的第一次出现都会有
NaN
值,因此我用-1填充它们,如您的问题所述。您可以按event
列对数据帧进行分组,并计算Day
的diff
,如下所示:
event_data['Days_since_event'] = event_data.groupby('Event')['Day']\
.diff().fillna(-1).astype(int)
每个事件的第一次出现都会有
NaN
值,所以我用-1填充它们,正如您在问题中所描述的那样。工作起来很有魅力。谢谢你,沙丘居民:)工作起来很有魅力。谢谢你,沙丘居民:)