Python 返回满足dataframe中条件的dataframe位置处第一个值的位置_Python_Pandas_Dataframe_Pandas Groupby

Python 返回满足dataframe中条件的dataframe位置处第一个值的位置

python pandas dataframe

Python 返回满足dataframe中条件的dataframe位置处第一个值的位置,python,pandas,dataframe,pandas-groupby,Python,Pandas,Dataframe,Pandas Groupby,我有这个数据框： import pandas as pd df = pd.DataFrame({'time': ['20:00', '23:00', '21:00', '21:00', '22:00', '22:00', '20:30'], 'traf': [100, 200, 25, 300, 100, 200, 100], 'num': [5, 3, 5, 6, 41, 34, 10]}) df = df.set_i

我有这个数据框：

import pandas as pd
df = pd.DataFrame({'time': ['20:00', '23:00', '21:00', '21:00', '22:00', '22:00', '20:30'],
                   'traf': [100, 200, 25, 300, 100, 200, 100],
                   'num': [5, 3, 5, 6, 41, 34, 10]})
df = df.set_index(['time']).sort_index()
print(df)

        traf  num
time            
20:00   100    5
20:30   100   10
21:00    25    5
21:00   300    6
22:00   100   41
22:00   200   34
23:00   200    3

我试图编写一个函数，通过df列['traf']的值聚合数据帧，然后报告df列['num']中满足条件的第一个值

这里是我正在做的例子，但我不确定这是否是一个正确的粗糙去。另外，由于我正在处理一个非常大的数据帧，我不确定这种方法是否足够有效

filter = df.groupby(["time"])['traf'].sum() >= 225
df.where(filter, inplace=True)
print(df)

         traf   num
time              
20:00    NaN   NaN
20:30    NaN   NaN
21:00   25.0   5.0
21:00  300.0   6.0
22:00  100.0  41.0
22:00  200.0  34.0
23:00    NaN   NaN

因此，从上面的结果来看，我希望我的输出是num列中的第一个值，在本例中为5.0，它不是NaN。

使用transform with sum，然后使用first再次使用groupby

或

s=df.groupby(["time"])['traf'].transform('sum').gt(255)
df[s].groupby('time').num.first()
Out[207]: 
time
21:00     5
22:00    41
Name: num, dtype: int64

df.loc[s,'num'].iloc[0]
Out[211]: 5