Python为特定行匹配条件设置值
基于dataframe列del值,查看其他列col_0-14,然后将该行的值设置为100(不更新nan值) 数据帧看起来像:Python为特定行匹配条件设置值,python,pandas,Python,Pandas,基于dataframe列del值,查看其他列col_0-14,然后将该行的值设置为100(不更新nan值) 数据帧看起来像: id val_1 del col_1 col_2 col_3 col_4 col_5 col_6 col_7 col_8 col_9 col_10 col_11 col_12 col_13 col14 1 13 0 0 0 0 0 0 0 0 0 0 0 0 0
id val_1 del col_1 col_2 col_3 col_4 col_5 col_6 col_7 col_8 col_9 col_10 col_11 col_12 col_13 col14
1 13 0 0 0 0 0 0 0 0 0 0 0 0 0
2 11 0 0 0 0 0 0 0 0 0 0 0
3 8 1 0 0 0 0 0 7 7 8
4 6 1 500 1000 1500 2000 2500 3000
作为第3、第4行的del,代码应将值替换为100,直到val_1值
3 8 1 100 100 100 100 100 100 100 100
4 6 1 100 100 100 100 100 100
我试过:
df.loc[df['del'] == 1, df.columns.str.startswith('col')] = 100
它将所有行值(col1-14)替换为100。有没有办法,我可以控制它,直到val_1值和col的其余部分保留为nan值。
或
在上面的代码之后,我可以使用val_1值使用循环逻辑用nan值再次更新行
def cut_data(row):
for i in range(1, 15):
if i > row['val_1']:
row['col_' + str(i)] = np.NaN
return row
df = df.apply(cut_data, axis=1)
请建议循环逻辑的任何替代方案,即不使用循环。
要生成数据帧的DDL:
df1 = pd.DataFrame({'id': [1, 2, 3, 4],
'val_1': [13, 11, 8, 6],
'del' : [np.nan,np.nan,1,1],
'col1': [0, 0, 0, 500],
'col2': [0, 0, 0, 1000],
'col3': [0, 0, 0, 1500],
'col4': [0, 0, 0, 2000],
'col5' : [0, 0, 0, 2500],
'col6': [0, 0, 7, 3000],
'col7': [0, 0, 7,np.nan ],
'col8': [0, 0, 7, np.nan],
'col9': [0, 0, np.nan, np.nan],
'col10': [0, 0, np.nan, np.nan],
'col11': [0, 0, np.nan, np.nan],
'col12': [0, np.nan, np.nan, np.nan],
'col13': [0, np.nan, np.nan, np.nan],
'col14': [ np.nan, np.nan, np.nan, np.nan]})
谢谢 上次编辑的解决方案:
#extract columns names starting by col
c = df.columns[df.columns.str.startswith('col')]
#created 2d mask by compare 1d arrange array by length of c for 2d mask
colsarray = np.arange(len(c))
max1 = df['val_1'].to_numpy()[:, None]
print (max1)
[[13]
[11]
[ 8]
[ 6]]
mask1 = colsarray < max1
print (mask1)
[[ True True True True True True True True True True True True
True False]
[ True True True True True True True True True True True False
False False]
[ True True True True True True True True False False False False
False False]
[ True True True True True True False False False False False False
False False]]
谢谢你,耶斯雷尔!当1行上存在del==1时,它起作用。如果del==1存在于多行中怎么办?您还可以建议上述循环的任何替代方案吗?@Anku-如果在
del
列中有多个1
值,则测试和工作良好。抱歉@jezrael,您的答案是正确的!但我没有指出值6是基于列val_1的值。对于每一行,它都有不同的值,如果我有多个del,比如您的示例中的行1和行3,col1-14值应该更新到val_1值。(同时我也在编辑我的问题)。@Anku-我添加了numpy解决方案,像循环一样复杂,但速度非常快,因为矢量化了。让我们来看看。
mask2 = df['del'] == 1
print (mask2)
0 False
1 False
2 True
3 True
Name: del, dtype: bool
#chain by mask2 by & for bitwise AND - first 2 rows are set to False
mask = mask1 & mask2.to_numpy()[:, None]
print (mask)
[[False False False False False False False False False False False False
False False]
[False False False False False False False False False False False False
False False]
[ True True True True True True True True False False False False
False False]
[ True True True True True True False False False False False False
False False]]
#repalce only filtered rows by columns c
df[c] = np.where(mask, 100, df[c])
print (df)
id val_1 del col1 col2 col3 col4 col5 col6 col7 col8 \
0 1 13 NaN 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 2 11 NaN 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
2 3 8 1.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0
3 4 6 1.0 100.0 100.0 100.0 100.0 100.0 100.0 NaN NaN
col9 col10 col11 col12 col13 col14
0 0.0 0.0 0.0 0.0 0.0 NaN
1 0.0 0.0 0.0 NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN
3 NaN NaN NaN NaN NaN NaN