Python 多索引+聚合,保留完整索引

Python 多索引+聚合,保留完整索引,python,pandas,Python,Pandas,我有一个两级层次索引的整数序列 >> s id1 id2 1 a 100 b 10 c 9 2 a 2000 3 a 5 b 10 c 15 d 20 ... 我想按id1分组,并选择最大值,但结果中有完整的索引。我尝试了以下方法: >> s.groupb

我有一个两级层次索引的整数序列

 >> s
 id1    id2    
 1      a     100
        b      10
        c       9 
 2      a    2000
 3      a       5
        b      10
        c      15
        d      20
 ...
我想按id1分组,并选择最大值,但结果中有完整的索引。我尝试了以下方法:

 >> s.groupby(level=0).aggregate(np.max)
 id1              
 1    100 
 2   2000
 3     20
但结果仅由id1索引。我希望我的输出如下所示:

 id1    id2    
 1      a     100
 2      a    2000
 3      d      20
这里提出了一个相关但更复杂的问题: 正如它所说,答案有点像黑客


有人知道更好的解决方案吗?如果不是,那么id2的每个值都是唯一的特殊情况如何?

在groupby之后选择整行的一种方法是使用groupby/transform构建布尔掩码,然后使用掩码从s中选择整行:

另一种方法,在某些情况下(例如当有很多组时)更快,就是将最大值m与s中的值合并到一个数据帧中,然后根据m和s之间的相等性选择行:

下面的示例显示使用_merge虽然更复杂,但可能比使用_transform更快:

使用IPython的%timeit函数对这两个函数进行计时会产生:

In [121]: %timeit using_merge(ss)
100 loops, best of 3: 12.8 ms per loop

In [122]: %timeit using_transform(ss)
10 loops, best of 3: 45 ms per loop
def using_merge(s):
    m = s.groupby(level=0).agg(np.max)
    df = s.reset_index(['id2'])
    df['m'] = m
    result = df.loc[df['s']==df['m']]
    del result['m']
    result = result.set_index(['id2'], append=True)
    return result['s']
import numpy as np
import pandas as pd
def using_transform(s):
    return s[s.groupby(level=0).transform(lambda x: x == x.max()).astype(bool)]

N = 10**5
id1 = np.random.randint(100, size=N)
id2 = np.random.choice(list('abcd'), size=N)
index = pd.MultiIndex.from_arrays([id1, id2])
ss = pd.Series(np.random.randint(100, size=N), index=index)
ss.index.names = ['id1', 'id2']
ss.name = 's'
In [121]: %timeit using_merge(ss)
100 loops, best of 3: 12.8 ms per loop

In [122]: %timeit using_transform(ss)
10 loops, best of 3: 45 ms per loop