Python 如何使用pandas中的groupby根据另一列中的标准计算百分比/总比例
我正在尝试解决如何使用pandas中的Python 如何使用pandas中的groupby根据另一列中的标准计算百分比/总比例,python,pandas,dataframe,group-by,pivot,Python,Pandas,Dataframe,Group By,Pivot,我正在尝试解决如何使用pandas中的groupby函数,在给定的是/否标准下计算出每年的值的比例 例如,我有一个名为names的数据帧: Name Number Year Sex Criteria 0 name1 789 1998 Male N 1 name1 688 1999 Male N 2 name1 639 2000 Male N 3 name2 551 1998 Male Y
groupby
函数,在给定的是/否标准下计算出每年的值的比例
例如,我有一个名为names
的数据帧:
Name Number Year Sex Criteria
0 name1 789 1998 Male N
1 name1 688 1999 Male N
2 name1 639 2000 Male N
3 name2 551 1998 Male Y
4 name2 499 1999 Male Y
我可以用
namesgrouped = names.groupby(["Sex", "Year", "Criteria"]).sum()
要获得:
Number
Sex Year Criteria
Male 1998 N 14507
Y 2308
1999 N 14119
Y 2331
等等。我想在“数字标准”栏中显示每个性别和年份在总数中所占的百分比——因此,我选择了N=86.27%和Y=13.73%,而不是1998年的N=14507和Y=2308
有人能给我们建议怎么做吗?这个问题是这个问题的直接延伸。借用公认的答案,这将起作用:
In [46]: namesgrouped.groupby(level=[0, 1]).apply(lambda g: g / g.sum())
Out[46]:
Number
Sex Year Criteria
Male 1998 N 0.588806
Y 0.411194
1999 N 0.579612
Y 0.420388
2000 N 1.000000
编辑:变换操作可能比应用更快:
namesgrouped / namesgrouped.groupby(level=[0, 1]).transform('sum')
不幸的是,您链接到的示例的可能副本对我不起作用,因为我在groupby中有一个额外的层!有人知道在处理像我这样的层次结构时如何计算百分比吗?我有没有一种方法可以在不应用
apply
的情况下实现相同的百分比?@NelsonGon可以尝试类似namesgrouped.div(namesgrouped.groupby(level=[0,1]).transform('sum')
的方法,你能把它添加到你的答案中吗?我见过transform使用了很多,但不确定它是如何工作的。你能详细说明一下transform的作用吗?我看到python和R有很多相似的函数,但R的转换行为可能与我在这里看到的有所不同。@NelsonGonGroupBy.transform
将GroupBy
操作的结果扩展到原始数据帧的整个长度。例如,这里没有为每个组汇总总和的结果,transform
意味着(相同的)总和将扩展到整个组。这就是我们如何用它的总和来划分每一组。谢谢,那么用总和来转换是如何给我们比例的呢?对不起,我几个小时前就试过了,结果不太理想。