Python 熊猫:计算数据帧中重复项的平均值
我一直在使用python和pandas中的数据帧,它在第一列中包含重复的条目。数据帧的外观如下所示:Python 熊猫:计算数据帧中重复项的平均值,python,pandas,Python,Pandas,我一直在使用python和pandas中的数据帧,它在第一列中包含重复的条目。数据帧的外观如下所示: sample_id qual percent 0 sample_1 10 20 1 sample_2 20 30 2 sample_1 50 60 3 sample_2 10 90 4 sample_3 100 20 我想写一些东西来识别
sample_id qual percent
0 sample_1 10 20
1 sample_2 20 30
2 sample_1 50 60
3 sample_2 10 90
4 sample_3 100 20
我想写一些东西来识别第一列中的重复条目,并计算后续列的平均值。理想的输出类似于以下内容:
sample_id qual percent
0 sample_1 30 40
1 sample_2 15 60
2 sample_3 100 20
我整个下午都在努力解决这个问题,非常感谢您的帮助。
groupby
sample\u id列并使用mean
df.groupby('sample_id').mean().reset_index()
或
df.groupby('sample\u id',as\u index=False).mean()
明白了吗
Groupby将起作用
data.groupby('sample_id').mean()
然后,您可以使用
reset\u index()
使外观完全符合您的要求。您可以再次检查您的预期输出吗?这看起来不像是平均值,你是对的。我已经修改了数据框以包含正确的平均值。谢谢如果数据帧中存在重复项和非重复项,并且您希望将重复项缩小到其平均值,我们如何处理此问题?谢谢