Groupby year并将函数应用于另一列—Python、Pandas_Python_Pandas_Group By_Apply

Groupby year并将函数应用于另一列—Python、Pandas

python pandas

Groupby year并将函数应用于另一列—Python、Pandas,python,pandas,group-by,apply,Python,Pandas,Group By,Apply,我有一个多索引、多列数据帧： start A B C D 0 2019 35.156667 51.621111 18.858684 1 1 2019 NaN 50.211905 18.991290 -1 2 2019 42.836250 58.778235 18.788889 1 3 2020 NaN 8.188000 17.805833

我有一个多索引、多列数据帧：

  start  A          B             C          D
0 2019  35.156667   51.621111   18.858684    1  
1 2019  NaN         50.211905   18.991290   -1  
2 2019  42.836250   58.778235   18.788889    1  
3 2020  NaN         8.188000    17.805833    1      
4 2020  42.568000   55.907143   17.300000   -1  
5 2021  46.458333   42.293750   26.322500    1  
6 2021  43.675000   60.475000   29.520000    1

每年（列“开始”），如果D>0，我想用正向值填充列a中的NaN，如果D则用反向值填充列a中的NaN，并使用每组的正向和反向填充，然后通过以下方式设置值：

谢谢你的回答，你确定这一点：df1['ffill'，df1['bfill']？我得到键错误，因为它将其视为列标签。顺便说一句，数据框更大，每年都有许多行。@Luca91-是的，它位于另一个新的数据框

df1

列中。@Luca91-答案已编辑，如何为您

print（df1）

？正确！我仍然在挣扎，因为这是一个多列数据帧，其中a是上一列的子列，通常我通过df[（'UpColumn'，'a'）]调用，所以现在它变成了一个3级列，你知道如何调用它吗？它与df[（'UpColumn'，'a'，'ffill'）]一起工作谢谢！

  start  A          B             C          D
0 2019  35.156667   51.621111   18.858684    1  
1 2019  35.156667   50.211905   18.991290   -1  
2 2019  42.836250   58.778235   18.788889    1  
3 2020  42.568000   8.188000    17.805833    1      
4 2020  42.568000   55.907143   17.300000   -1  
5 2021  46.458333   42.293750   26.322500    1  
6 2021  43.675000   60.475000   29.520000    1

df[['A','D']] = df.groupby('start').apply(lambda x: x['A'].fillna(method='ffill') if x['D']>0 else x['A'].fillna(method='bfill'))

The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

df1 = df.groupby('start')['A'].agg(['ffill','bfill'])
print (df1)
       ffill      bfill
0  35.156667  35.156667
1  35.156667  42.836250
2  42.836250  42.836250
3        NaN  42.568000
4  42.568000  42.568000
5  46.458333  46.458333
6  43.675000  43.675000

print (df1.columns)
Index(['ffill', 'bfill'], dtype='object')

df['A'] = np.where(df['D'] < 0, df1['ffill'], df1['bfill'])
print (df)
   start          A          B          C  D
0   2019  35.156667  51.621111  18.858684  1
1   2019  35.156667  50.211905  18.991290 -1
2   2019  42.836250  58.778235  18.788889  1
3   2020  42.568000   8.188000  17.805833  1
4   2020  42.568000  55.907143  17.300000 -1
5   2021  46.458333  42.293750  26.322500  1
6   2021  43.675000  60.475000  29.520000  1

df['A'] =  df.groupby('start')['A'].apply(lambda x: x.ffill().bfill())
print (df)
   start          A          B          C  D
0   2019  35.156667  51.621111  18.858684  1
1   2019  35.156667  50.211905  18.991290 -1
2   2019  42.836250  58.778235  18.788889  1
3   2020  42.568000   8.188000  17.805833  1
4   2020  42.568000  55.907143  17.300000 -1
5   2021  46.458333  42.293750  26.322500  1
6   2021  43.675000  60.475000  29.520000  1