Python 根据另一列,使用第一个非nan值替换nan
我有一个如下形式的数据框:(比这些列多得多-为了简洁起见删除) B列有重复项,其中最新值应为非NA(但可能不是NA) 我想用最新的非NA值替换col B值。大概是这样的:Python 根据另一列,使用第一个非nan值替换nan,python,pandas,dataframe,for-loop,Python,Pandas,Dataframe,For Loop,我有一个如下形式的数据框:(比这些列多得多-为了简洁起见删除) B列有重复项,其中最新值应为非NA(但可能不是NA) 我想用最新的非NA值替换col B值。大概是这样的: unique_people = df['A'].unique() for person in unique_people: sub_df = df[df['A'] == person] val = sub_df['B'].tail(1).values df['A'][df['A'] == person]
unique_people = df['A'].unique()
for person in unique_people:
sub_df = df[df['A'] == person]
val = sub_df['B'].tail(1).values
df['A'][df['A'] == person] = val # this also doesnt work because its not inplace
我肯定有更好的办法,但我不知道怎么做。有人能指出更好的方法吗
谢谢 首先将空字符串替换为缺少的值,然后对每组最后一个非缺少的值使用:
headers = ['A','B','C']
data = [['p1','','v1'],
['p2','','ba'],
['p3',9,'fg'],
['p1',1,'fg'],
['p2',45,'af'],
['p3',1,'fg'],
['p1','','hf']
]
df = pd.DataFrame(data,columns=headers)
df['B'] = df['B'].replace('', np.nan)
df['B'] = df.groupby('A')['B'].transform('last')
print (df)
A B C
0 p1 1.0 v1
1 p2 45.0 ba
2 p3 1.0 fg
3 p1 1.0 fg
4 p2 45.0 af
5 p3 1.0 fg
6 p1 1.0 hf
headers = ['A','B','C']
data = [['p1','','v1'],
['p2','','ba'],
['p3',9,'fg'],
['p1',1,'fg'],
['p2',45,'af'],
['p3',1,'fg'],
['p1','','hf']
]
df = pd.DataFrame(data,columns=headers)
df['B'] = df['B'].replace('', np.nan)
df['B'] = df.groupby('A')['B'].transform('last')
print (df)
A B C
0 p1 1.0 v1
1 p2 45.0 ba
2 p3 1.0 fg
3 p1 1.0 fg
4 p2 45.0 af
5 p3 1.0 fg
6 p1 1.0 hf