Python 列间引用
我有一些数据如下:Python 列间引用,python,pandas,Python,Pandas,我有一些数据如下: +--------+------+ | Reason | Keys | +--------+------+ | x | a | | y | a | | z | a | | y | b | | z | b | | x | c | | w | d | | x | d | | w | d | +--------+------+ 我想获得与
+--------+------+
| Reason | Keys |
+--------+------+
| x | a |
| y | a |
| z | a |
| y | b |
| z | b |
| x | c |
| w | d |
| x | d |
| w | d |
+--------+------+
我想获得与每个键的第一次出现相对应的原因。像这里一样,我应该分别为键a、b、c、d
获取原因x、y、x、w
。在那之后,我想计算每个原因的百分比,就像度量每个原因发生的次数一样。因此x=2/4=50%。
和w,y=25%
对于百分比,我想我可以根据上一步使用类似于value\u counts(normalize=True)*100的值。什么是继续进行的好方法 关于第二步你是对的,第一步可以通过
summary = df.groupby("Keys").first()
您可以使用删除重复项
df.drop_duplicates(['Reason'])
Out[207]:
Reason Keys
0 x a
1 y a
2 z a
6 w d
请参阅“按预期输出格式编辑”。我认为你答案中的表格需要进一步处理。