Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/354.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 获取数据帧中最高值的列和行索引_Python_Pandas_Dataframe - Fatal编程技术网

Python 获取数据帧中最高值的列和行索引

Python 获取数据帧中最高值的列和行索引,python,pandas,dataframe,Python,Pandas,Dataframe,我想知道是否有办法找到数据帧中最高值的位置(列和行索引)。例如,如果我的数据框如下所示: A B C D E 0 100 9 1 12 6 1 80 10 67 15 91 2 20 67 1 56 23 3 12 51

我想知道是否有办法找到数据帧中最高值的位置(列和行索引)。例如,如果我的数据框如下所示:

   A         B         C         D         E
0  100       9         1         12        6
1  80        10        67        15        91
2  20        67        1         56        23
3  12        51        5         10        58
4  73        28        72        25        1
如何获得如下结果:
[0,'a']
使用熊猫?

这应该可以:

def max_df(df):
    m = None
    p = None
    for idx, item in enumerate(df.idxmax()):
        c = df.columns[item]
        val = df[c][idx]
        if m is None or val > m:
            m = val
            p = idx, c
    return p
这将使用函数,然后比较它返回的所有值

用法示例:

>>> df

     A  B
0  100  9
1   90  8
>>> max_df(df)

(0, 'A')
这是一条单行线(为了好玩):


mask
+
max

df.mask(~(df==df.max().max())).stack().index.tolist()
Out[17]: [(0, 'A')]
使用
np.argmax
NumPy的
argmax
可能会有所帮助:

>>> df.stack().index[np.argmax(df.values)]
(0, 'A')
步调一致
df.values
是一个二维NumPy数组:

>>> df.values
array([[100,   9,   1,  12,   6],
       [ 80,  10,  67,  15,  91],
       [ 20,  67,   1,  56,  23],
       [ 12,  51,   5,  10,  58],
       [ 73,  28,  72,  25,   1]])
argmax
提供“展平”数组的最大值索引:

现在,您可以使用此索引查找堆叠数据帧上的行-列位置:

>>> df.stack().index[0]
(0, 'A')
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
快速替代方案 如果您需要快速完成,请尽可能少地执行步骤。 仅在NumPy数组上查找索引
np.argmax
似乎是最好的:

v = df.values
i, j = [x[0] for x in np.unravel_index([np.argmax(v)], v.shape)]
[df.index[i], df.columns[j]]
结果:

[0, 'A']
时间安排 定时最适用于大型数据帧:

df = pd.DataFrame(data=np.arange(int(1e6)).reshape(-1,5), columns=list('ABCDE'))
从最慢到最快排序:

面具: 堆栈idmax 堆栈argmax 哪里 Argmax-unlavel_索引 比较 输出:

                   name    time unit   seconds  factor slower
4  Argmax-unravel_index  499.00   µs  0.000499       1.000000
3                 Where    4.45   ms  0.004450       8.917836
2          Stack-argmax   14.80   ms  0.014800      29.659319
1           Stack-idmax   17.10   ms  0.017100      34.268537
0                  Mask   33.40   ms  0.033400      66.933868
[0, 'A']
因此,“Argmax-unravel_index”版本似乎比大型数据帧快一到近两个数量级,即速度通常最重要的地方。

用于
系列
多索引以及最大值索引:

print (df.stack().idxmax())
(0, 'A')

print (list(df.stack().idxmax()))
[0, 'A']
详情:

print (df.stack())
0  A    100
   B      9
   C      1
   D     12
   E      6
1  A     80
   B     10
   C     67
   D     15
   E     91
2  A     20
   B     67
   C      1
   D     56
   E     23
3  A     12
   B     51
   C      5
   D     10
   E     58
4  A     73
   B     28
   C     72
   D     25
   E      1
dtype: int64

在我看来,对于较大的数据集,stack()会变得效率低下,让我们使用
np。其中
返回索引位置:

i,j = np.where(df.values == df.values.max())
list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
输出:

                   name    time unit   seconds  factor slower
4  Argmax-unravel_index  499.00   µs  0.000499       1.000000
3                 Where    4.45   ms  0.004450       8.917836
2          Stack-argmax   14.80   ms  0.014800      29.659319
1           Stack-idmax   17.10   ms  0.017100      34.268537
0                  Mask   33.40   ms  0.033400      66.933868
[0, 'A']
大型DataFame的计时: np.where方法 1000个回路,最佳3个:每个回路364µs

其他堆栈方法 100圈,最佳3圈:每圈7.68毫秒

10个回路,最好3个:每个回路50.5毫秒

1000个回路,最佳3个:每个回路1.58毫秒

更大的数据帧:

>>> df.stack().index[0]
(0, 'A')
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
分别为:

1000 loops, best of 3: 1.62 ms per loop
10 loops, best of 3: 18.2 ms per loop
100 loops, best of 3: 5.69 ms per loop
100 loops, best of 3: 6.64 ms per loop
这是最好的方法

i,j = np.where(df.values == df.values.max())
list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
[0, 'A']
df = pd.DataFrame(data=np.arange(10000).reshape(-1,5), columns=list('ABCDE'))
> %%timeit i,j = np.where(df.values == df.values.max())
> list((df.index[i].values.tolist()[0],df.columns[j].values.tolist()[0]))
> %timeit df.mask(~(df==df.max().max())).stack().index.tolist()
> %timeit df.stack().index[np.argmax(df.values)`]
> %timeit list(df.stack().idxmax())
df = pd.DataFrame(data=np.arange(100000).reshape(-1,5), columns=list('ABCDE'))
1000 loops, best of 3: 1.62 ms per loop
10 loops, best of 3: 18.2 ms per loop
100 loops, best of 3: 5.69 ms per loop
100 loops, best of 3: 6.64 ms per loop
print('Max value:', df.stack().max())
print('Parameters :', df.stack().idxmax())