Python 在数据帧中设置最大值(上限)
我正在尝试设置数据帧列的最大值。例如:Python 在数据帧中设置最大值(上限),python,pandas,dataframe,max,Python,Pandas,Dataframe,Max,我正在尝试设置数据帧列的最大值。例如: my_dict = {'a':[10,12,15,17,19,20]} df = pd.DataFrame(my_dict) df['a'].set_max(15) 将产生: a 0 10 1 12 2 15 3 15 4 15 5 15 但事实并非如此 有一百万个解决方案可以找到最大值,但没有任何解决方案可以设置最大值。。。至少我能找到 我可以反复浏览这个列表,但我怀疑有一种更快的方法来处理熊猫。我的列表将明显更长,
my_dict = {'a':[10,12,15,17,19,20]}
df = pd.DataFrame(my_dict)
df['a'].set_max(15)
将产生:
a
0 10
1 12
2 15
3 15
4 15
5 15
但事实并非如此
有一百万个解决方案可以找到最大值,但没有任何解决方案可以设置最大值。。。至少我能找到
我可以反复浏览这个列表,但我怀疑有一种更快的方法来处理熊猫。我的列表将明显更长,因此我预计迭代将花费相对更长的时间。另外,我希望任何解决方案都能够处理NaN
我想您可以做到:
maxVal = 15
df['a'].where(df['a'] <= maxVal, maxVal) # where replace values with other when the
# condition is not satisfied
#0 10
#1 12
#2 15
#3 15
#4 15
#5 15
#Name: a, dtype: int64
你可以用
适用于数据框的所有列:
df.clip(upper=15)
否则,将应用于选定列,如图所示:
是一个好的、快速的选择
df
a
0 10
1 12
2 15
3 17
4 19
5 20
np.clip(df['a'], a_max=15, a_min=None)
0 10
1 12
2 15
3 15
4 15
5 15
Name: a, dtype: int64
# Or,
np.clip(df['a'].to_numpy(), a_max=15, a_min=None)
# array([10, 12, 15, 15, 15, 15])
从v0.21开始,您还可以使用 注意
此方法(以及
clip_lower
)已从v0.24中弃用,并将在未来版本中删除
同样,如果您只想设置下限,请使用。这些方法也适用于
系列
对象。就是这样。我知道我错过了一些简单的东西。谢谢Psidom。注意:两者并不等同。第一个也替换NaN,第二个只是阈值以上的值(但保留NaN)。我还注意到,使用格式df.loc[df['a']>=maxVal,'a']=maxVal
可能是更好的做法,但我没有任何具体的理由来解释为什么我更喜欢它,也没有比较过计时。如果你不使用df.loc[df['a']>=maxVal,'a']=maxVal
,而使用df['a']][df['a']>=maxVal]=maxVal
您基本上是在数据帧的副本上设置值,而不是在数据帧本身上设置值。@feetwet用弃用警告更新了答案。谢谢
df.clip(upper=pd.Series({'a': 15}), axis=1)
df
a
0 10
1 12
2 15
3 17
4 19
5 20
np.clip(df['a'], a_max=15, a_min=None)
0 10
1 12
2 15
3 15
4 15
5 15
Name: a, dtype: int64
# Or,
np.clip(df['a'].to_numpy(), a_max=15, a_min=None)
# array([10, 12, 15, 15, 15, 15])
df.clip_upper(15)
# Or, for a specific column,
df['a'].clip_upper(15)
a
0 10
1 12
2 15
3 15
4 15
5 15