Python 在数据帧中设置最大值(上限)

Python 在数据帧中设置最大值(上限),python,pandas,dataframe,max,Python,Pandas,Dataframe,Max,我正在尝试设置数据帧列的最大值。例如: my_dict = {'a':[10,12,15,17,19,20]} df = pd.DataFrame(my_dict) df['a'].set_max(15) 将产生: a 0 10 1 12 2 15 3 15 4 15 5 15 但事实并非如此 有一百万个解决方案可以找到最大值,但没有任何解决方案可以设置最大值。。。至少我能找到 我可以反复浏览这个列表,但我怀疑有一种更快的方法来处理熊猫。我的列表将明显更长,

我正在尝试设置数据帧列的最大值。例如:

my_dict = {'a':[10,12,15,17,19,20]}
df = pd.DataFrame(my_dict)

df['a'].set_max(15)
将产生:

    a
0   10
1   12
2   15
3   15
4   15
5   15
但事实并非如此

有一百万个解决方案可以找到最大值,但没有任何解决方案可以设置最大值。。。至少我能找到

我可以反复浏览这个列表,但我怀疑有一种更快的方法来处理熊猫。我的列表将明显更长,因此我预计迭代将花费相对更长的时间。另外,我希望任何解决方案都能够处理
NaN

我想您可以做到:

maxVal = 15
df['a'].where(df['a'] <= maxVal, maxVal)      # where replace values with other when the 
                                              # condition is not satisfied

#0    10
#1    12
#2    15
#3    15
#4    15
#5    15
#Name: a, dtype: int64
你可以用

适用于数据框的所有列:

df.clip(upper=15)
否则,将应用于选定列,如图所示:

是一个好的、快速的选择

df

    a
0  10
1  12
2  15
3  17
4  19
5  20

np.clip(df['a'], a_max=15, a_min=None)

0    10
1    12
2    15
3    15
4    15
5    15
Name: a, dtype: int64

# Or,
np.clip(df['a'].to_numpy(), a_max=15, a_min=None)
# array([10, 12, 15, 15, 15, 15])

从v0.21开始,您还可以使用

注意
此方法(以及
clip_lower
)已从v0.24中弃用,并将在未来版本中删除


同样,如果您只想设置下限,请使用。这些方法也适用于
系列
对象。

就是这样。我知道我错过了一些简单的东西。谢谢Psidom。注意:两者并不等同。第一个也替换NaN,第二个只是阈值以上的值(但保留NaN)。我还注意到,使用格式
df.loc[df['a']>=maxVal,'a']=maxVal
可能是更好的做法,但我没有任何具体的理由来解释为什么我更喜欢它,也没有比较过计时。如果你不使用
df.loc[df['a']>=maxVal,'a']=maxVal
,而使用
df['a']][df['a']>=maxVal]=maxVal
您基本上是在数据帧的副本上设置值,而不是在数据帧本身上设置值。@feetwet用弃用警告更新了答案。谢谢
df.clip(upper=pd.Series({'a': 15}), axis=1)
df

    a
0  10
1  12
2  15
3  17
4  19
5  20

np.clip(df['a'], a_max=15, a_min=None)

0    10
1    12
2    15
3    15
4    15
5    15
Name: a, dtype: int64

# Or,
np.clip(df['a'].to_numpy(), a_max=15, a_min=None)
# array([10, 12, 15, 15, 15, 15])
df.clip_upper(15)
# Or, for a specific column,
df['a'].clip_upper(15)

    a
0  10
1  12
2  15
3  15
4  15
5  15