Python 列间引用

Python 列间引用,python,pandas,Python,Pandas,我有一些数据如下: +--------+------+ | Reason | Keys | +--------+------+ | x | a | | y | a | | z | a | | y | b | | z | b | | x | c | | w | d | | x | d | | w | d | +--------+------+ 我想获得与

我有一些数据如下:

+--------+------+
| Reason | Keys |
+--------+------+
| x      | a    |
| y      | a    |
| z      | a    |
| y      | b    |
| z      | b    |
| x      | c    |
| w      | d    |
| x      | d    |
| w      | d    |
+--------+------+
我想获得与每个
键的第一次出现相对应的
原因。像这里一样,我应该分别为
a、b、c、d
获取
原因
x、y、x、w
。在那之后,我想计算每个
原因的百分比,就像度量每个
原因发生的次数一样。因此
x=2/4=50%。
w,y=25%


对于百分比,我想我可以根据上一步使用类似于
value\u counts(normalize=True)*100的值。什么是继续进行的好方法

关于第二步你是对的,第一步可以通过

summary = df.groupby("Keys").first()

您可以使用
删除重复项

df.drop_duplicates(['Reason'])
Out[207]: 
  Reason Keys
0      x    a
1      y    a
2      z    a
6      w    d

请参阅“按预期输出格式编辑”。我认为你答案中的表格需要进一步处理。