Python 获取数据帧中最高值的列和行索引
我想知道是否有办法找到数据帧中最高值的位置(列和行索引)。例如,如果我的数据框如下所示:Python 获取数据帧中最高值的列和行索引,python,pandas,dataframe,Python,Pandas,Dataframe,我想知道是否有办法找到数据帧中最高值的位置(列和行索引)。例如,如果我的数据框如下所示: A B C D E 0 100 9 1 12 6 1 80 10 67 15 91 2 20 67 1 56 23 3 12 51
A B C D E
0 100 9 1 12 6
1 80 10 67 15 91
2 20 67 1 56 23
3 12 51 5 10 58
4 73 28 72 25 1
如何获得如下结果:[0,'a']
使用熊猫?这应该可以:
def max_df(df):
m = None
p = None
for idx, item in enumerate(df.idxmax()):
c = df.columns[item]
val = df[c][idx]
if m is None or val > m:
m = val
p = idx, c
return p
这将使用函数,然后比较它返回的所有值
用法示例:
>>> df
A B
0 100 9
1 90 8
>>> max_df(df)
(0, 'A')
这是一条单行线(为了好玩):
mask
+max
df.mask(~(df==df.max().max())).stack().index.tolist()
Out[17]: [(0, 'A')]
使用np.argmax
NumPy的argmax
可能会有所帮助:
>>> df.stack().index[np.argmax(df.values)]
(0, 'A')
步调一致
df.values
是一个二维NumPy数组:
>>> df.values
array([[100, 9, 1, 12, 6],
[ 80, 10, 67, 15, 91],
[ 20, 67, 1, 56, 23],
[ 12, 51, 5, 10, 58],
[ 73, 28, 72, 25, 1]])
argmax
提供“展平”数组的最大值索引:
现在,您可以使用此索引查找堆叠数据帧上的行-列位置:
>>> df.stack().index[0]
(0, 'A')
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
快速替代方案
如果您需要快速完成,请尽可能少地执行步骤。
仅在NumPy数组上查找索引np.argmax
似乎是最好的:
v = df.values
i, j = [x[0] for x in np.unravel_index([np.argmax(v)], v.shape)]
[df.index[i], df.columns[j]]
结果:
[0, 'A']
时间安排
定时最适用于大型数据帧:
df = pd.DataFrame(data=np.arange(int(1e6)).reshape(-1,5), columns=list('ABCDE'))
从最慢到最快排序:
面具:
堆栈idmax
堆栈argmax
哪里
Argmax-unlavel_索引
比较
输出:
name time unit seconds factor slower
4 Argmax-unravel_index 499.00 µs 0.000499 1.000000
3 Where 4.45 ms 0.004450 8.917836
2 Stack-argmax 14.80 ms 0.014800 29.659319
1 Stack-idmax 17.10 ms 0.017100 34.268537
0 Mask 33.40 ms 0.033400 66.933868
[0, 'A']
因此,“Argmax-unravel_index”版本似乎比大型数据帧快一到近两个数量级,即速度通常最重要的地方。用于系列和多索引以及最大值索引:
print (df.stack().idxmax())
(0, 'A')
print (list(df.stack().idxmax()))
[0, 'A']
详情:
print (df.stack())
0 A 100
B 9
C 1
D 12
E 6
1 A 80
B 10
C 67
D 15
E 91
2 A 20
B 67
C 1
D 56
E 23
3 A 12
B 51
C 5
D 10
E 58
4 A 73
B 28
C 72
D 25
E 1
dtype: int64
在我看来,对于较大的数据集,stack()会变得效率低下,让我们使用np。其中
返回索引位置:
i,j = np.where(df.values == df.values.max())
list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
输出:
name time unit seconds factor slower
4 Argmax-unravel_index 499.00 µs 0.000499 1.000000
3 Where 4.45 ms 0.004450 8.917836
2 Stack-argmax 14.80 ms 0.014800 29.659319
1 Stack-idmax 17.10 ms 0.017100 34.268537
0 Mask 33.40 ms 0.033400 66.933868
[0, 'A']
大型DataFame的计时:
np.where方法
1000个回路,最佳3个:每个回路364µs
其他堆栈方法
100圈,最佳3圈:每圈7.68毫秒
10个回路,最好3个:每个回路50.5毫秒
1000个回路,最佳3个:每个回路1.58毫秒
更大的数据帧:
>>> df.stack().index[0]
(0, 'A')
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
分别为:
1000 loops, best of 3: 1.62 ms per loop
10 loops, best of 3: 18.2 ms per loop
100 loops, best of 3: 5.69 ms per loop
100 loops, best of 3: 6.64 ms per loop
这是最好的方法
i,j = np.where(df.values == df.values.max())
list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
[0, 'A']
df = pd.DataFrame(data=np.arange(10000).reshape(-1,5), columns=list('ABCDE'))
> %%timeit i,j = np.where(df.values == df.values.max())
> list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
> %timeit df.mask(~(df==df.max().max())).stack().index.tolist()
> %timeit df.stack().index[np.argmax(df.values)`]
> %timeit list(df.stack().idxmax())
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
1000 loops, best of 3: 1.62 ms per loop
10 loops, best of 3: 18.2 ms per loop
100 loops, best of 3: 5.69 ms per loop
100 loops, best of 3: 6.64 ms per loop
print('Max value:', df.stack().max())
print('Parameters :', df.stack().idxmax())