Python 熊猫：找到每个人最常见的绳子_Python_Pandas

Python 熊猫：找到每个人最常见的绳子

python pandas

Python 熊猫：找到每个人最常见的绳子,python,pandas,Python,Pandas,当通过id聚合数据时，我想在animal中找到最常见的字符串值，如果计数相同，我想选择animal的最后一个值 id animal date 0 1 dog 2018-01-01 1 1 dog 2018-01-02 2 1 cat 2018-01-03 3 2 cat 2018-01-01 4 3 dog 2018-01-01 5 4 fish 2018-

当通过

id

聚合数据时，我想在

animal

中找到最常见的字符串值，如果计数相同，我想选择

animal

的最后一个值

   id   animal       date
0   1    dog      2018-01-01
1   1    dog      2018-01-02
2   1    cat      2018-01-03
3   2    cat      2018-01-01
4   3    dog      2018-01-01
5   4   fish      2018-01-01
6   5    dog      2018-01-01
7   5    cat      2018-01-02

输出应该类似于：

   id animal
0  1   dog
1  2   cat
2  3   dog
3  4   fish
4  5   cat

我没能让它正常工作。我试着使用pd.get_dummies和计数，但不看。理想情况下，该解决方案将使用内置的矢量化熊猫/numpy，即筛选、加入、np.where等，因为

groupby.apply

非常慢，数据也有点大。

您可以定义自定义规则并使用它来聚合

from collections import Counter
def rule(a):
    m = Counter(a)
    max_val = sorted(m.values())[-1]
    return max(a) if m.values().count(max_val) == 1 else a.tail(1).item()

df.groupby("id").aggregate(rule)

输出：

   animal
id  
1   dog
2   cat
3   dog
4   fish
5   cat

根据

id

和

animal

列进行分组，并获取它们出现的

count

和

last

日期

然后按

id

、

count

、

last

对结果数据帧进行排序，并在

id

上删除重复值，保留最后一行，由于我们的排序，这将给出最常见的动物，如果有两种动物，则为表中最后观察到的动物。最后，去掉额外的列

count

last

columns = ['id', 'animal']

df2 = df.groupby(columns).date.agg(['count', 'last']).reset_index()
df3 = df2.sort_values(['id', 'count', 'last'])
df3.drop_duplicates('id', keep='last')[columns]

# outputs:

   id animal
1   1    dog
2   2    cat
3   3    dog
4   4   fish
5   5    cat

这是最好的解决方案！