Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python为特定行匹配条件设置值_Python_Pandas - Fatal编程技术网

Python为特定行匹配条件设置值

Python为特定行匹配条件设置值,python,pandas,Python,Pandas,基于dataframe列del值,查看其他列col_0-14,然后将该行的值设置为100(不更新nan值) 数据帧看起来像: id val_1 del col_1 col_2 col_3 col_4 col_5 col_6 col_7 col_8 col_9 col_10 col_11 col_12 col_13 col14 1 13 0 0 0 0 0 0 0 0 0 0 0 0 0

基于dataframe列del值,查看其他列col_0-14,然后将该行的值设置为100(不更新nan值)

数据帧看起来像:

id  val_1   del col_1   col_2   col_3   col_4   col_5   col_6   col_7   col_8   col_9   col_10  col_11  col_12  col_13  col14
1   13      0   0   0   0   0   0   0   0   0   0   0   0   0   
2   11      0   0   0   0   0   0   0   0   0   0   0           
3   8   1   0   0   0   0   0   7   7   8                       
4   6   1   500 1000    1500    2000    2500    3000
作为第3、第4行的del,代码应将值替换为100,直到val_1值

3   8   1   100 100 100 100 100 100 100 100 
4   6   1   100 100 100 100 100 100
我试过:

df.loc[df['del'] == 1, df.columns.str.startswith('col')] = 100
它将所有行值(col1-14)替换为100。有没有办法,我可以控制它,直到val_1值和col的其余部分保留为nan值。 或

在上面的代码之后,我可以使用val_1值使用循环逻辑用nan值再次更新行

def cut_data(row):
    for i in range(1, 15):
        if i > row['val_1']:
            row['col_' + str(i)] = np.NaN
            
    return row

df = df.apply(cut_data, axis=1)
请建议循环逻辑的任何替代方案,即不使用循环。

要生成数据帧的DDL:

df1 = pd.DataFrame({'id': [1, 2, 3, 4],
                   'val_1': [13, 11, 8, 6],
                   'del' : [np.nan,np.nan,1,1], 
                   'col1': [0, 0, 0, 500],
                   'col2': [0, 0, 0, 1000],
                   'col3': [0, 0, 0, 1500],
                   'col4': [0, 0, 0, 2000],
                   'col5' : [0, 0, 0, 2500],
                   'col6': [0, 0, 7, 3000],
                   'col7': [0, 0, 7,np.nan ],
                   'col8': [0, 0, 7, np.nan],
                   'col9': [0, 0, np.nan, np.nan],
                   'col10': [0, 0, np.nan, np.nan],
                   'col11': [0, 0, np.nan, np.nan],
                   'col12': [0, np.nan, np.nan, np.nan],
                   'col13': [0, np.nan, np.nan, np.nan],
                   'col14': [ np.nan, np.nan, np.nan, np.nan]})
谢谢

上次编辑的解决方案:

#extract columns names starting by col
c = df.columns[df.columns.str.startswith('col')]

#created 2d mask by compare 1d arrange array by length of c for 2d mask
colsarray = np.arange(len(c))
max1 = df['val_1'].to_numpy()[:, None]

print (max1)
[[13]
 [11]
 [ 8]
 [ 6]]

mask1 = colsarray < max1

print (mask1)
[[ True  True  True  True  True  True  True  True  True  True  True  True
   True False]
 [ True  True  True  True  True  True  True  True  True  True  True False
  False False]
 [ True  True  True  True  True  True  True  True False False False False
  False False]
 [ True  True  True  True  True  True False False False False False False
  False False]]


谢谢你,耶斯雷尔!当1行上存在del==1时,它起作用。如果del==1存在于多行中怎么办?您还可以建议上述循环的任何替代方案吗?@Anku-如果在
del
列中有多个
1
值,则测试和工作良好。抱歉@jezrael,您的答案是正确的!但我没有指出值6是基于列val_1的值。对于每一行,它都有不同的值,如果我有多个del,比如您的示例中的行1和行3,col1-14值应该更新到val_1值。(同时我也在编辑我的问题)。@Anku-我添加了numpy解决方案,像循环一样复杂,但速度非常快,因为矢量化了。让我们来看看。
mask2 = df['del'] == 1
print (mask2)
0    False
1    False
2     True
3     True
Name: del, dtype: bool

#chain by mask2 by & for bitwise AND - first 2 rows are set to False
mask = mask1 & mask2.to_numpy()[:, None]
print (mask)
[[False False False False False False False False False False False False
  False False]
 [False False False False False False False False False False False False
  False False]
 [ True  True  True  True  True  True  True  True False False False False
  False False]
 [ True  True  True  True  True  True False False False False False False
  False False]]

#repalce only filtered rows by columns c
df[c] = np.where(mask, 100, df[c])
print (df)
   id  val_1  del   col1   col2   col3   col4   col5   col6   col7   col8  \
0   1     13  NaN    0.0    0.0    0.0    0.0    0.0    0.0    0.0    0.0   
1   2     11  NaN    0.0    0.0    0.0    0.0    0.0    0.0    0.0    0.0   
2   3      8  1.0  100.0  100.0  100.0  100.0  100.0  100.0  100.0  100.0   
3   4      6  1.0  100.0  100.0  100.0  100.0  100.0  100.0    NaN    NaN   

   col9  col10  col11  col12  col13  col14  
0   0.0    0.0    0.0    0.0    0.0    NaN  
1   0.0    0.0    0.0    NaN    NaN    NaN  
2   NaN    NaN    NaN    NaN    NaN    NaN  
3   NaN    NaN    NaN    NaN    NaN    NaN