Python 返回满足dataframe中条件的dataframe位置处第一个值的位置
我有这个数据框:Python 返回满足dataframe中条件的dataframe位置处第一个值的位置,python,pandas,dataframe,pandas-groupby,Python,Pandas,Dataframe,Pandas Groupby,我有这个数据框: import pandas as pd df = pd.DataFrame({'time': ['20:00', '23:00', '21:00', '21:00', '22:00', '22:00', '20:30'], 'traf': [100, 200, 25, 300, 100, 200, 100], 'num': [5, 3, 5, 6, 41, 34, 10]}) df = df.set_i
import pandas as pd
df = pd.DataFrame({'time': ['20:00', '23:00', '21:00', '21:00', '22:00', '22:00', '20:30'],
'traf': [100, 200, 25, 300, 100, 200, 100],
'num': [5, 3, 5, 6, 41, 34, 10]})
df = df.set_index(['time']).sort_index()
print(df)
traf num
time
20:00 100 5
20:30 100 10
21:00 25 5
21:00 300 6
22:00 100 41
22:00 200 34
23:00 200 3
我试图编写一个函数,通过df列['traf']的值聚合数据帧,然后报告df列['num']中满足条件的第一个值
这里是我正在做的例子,但我不确定这是否是一个正确的粗糙去。另外,由于我正在处理一个非常大的数据帧,我不确定这种方法是否足够有效
filter = df.groupby(["time"])['traf'].sum() >= 225
df.where(filter, inplace=True)
print(df)
traf num
time
20:00 NaN NaN
20:30 NaN NaN
21:00 25.0 5.0
21:00 300.0 6.0
22:00 100.0 41.0
22:00 200.0 34.0
23:00 NaN NaN
因此,从上面的结果来看,我希望我的输出是num列中的第一个值,在本例中为5.0,它不是NaN。使用transform with sum,然后使用first再次使用groupby
或
s=df.groupby(["time"])['traf'].transform('sum').gt(255)
df[s].groupby('time').num.first()
Out[207]:
time
21:00 5
22:00 41
Name: num, dtype: int64
df.loc[s,'num'].iloc[0]
Out[211]: 5