Python 访问groupby的列_Python_Python 3.x

Python 访问groupby的列

python python-3.x

Python 访问groupby的列,python,python-3.x,Python,Python 3.x,我有一张这样的桌子： Bank Our Credit Rating External Credit Rating Deviation A 11 12 1 D 10 8 2 A 4

我有一张这样的桌子：

 Bank        Our Credit Rating      External Credit Rating       Deviation
 A             11                      12                          1
 D             10                      8                           2
 A             4                       4                           0
 B             6                       7                           1
 C             12                      11                          1
 A             9                       10                          1

要提取所有偏差总和大于等于50的组。我已经通过上面给出的代码做了同样的事情

输出：

   [IN]
   workbbok = pd.read_csv("Credit_Rating_comparison.csv")
   df33= workbook.groupby('Bank').aggregate({"Deviation":np.sum})
   df44=df33[df33['Deviation']>=50]
   [OUT]
    Bank                                      Deviation                                  
    B                                          68.0
    A                                          72.0

    and so on for the relevant banks. (Basically sum of all deviations for 
    one bank where sum of all deviations is at least 50)

我无法访问第1列，该列是df44中所有银行的名称

[IN]: df44.columns [OUT]: Index(['Deviation'], dtype='object') [IN]: df44.iloc[:,0] [OUT] Bank B 68.0 A 72.0 #Using df44.iloc[:,0] doesnt give column name deviation also and returns deviation results along with Bank name. I want only bank names list.
基本上，我只需要一个银行名称的列表（没有偏差的总和），这样我就可以在下面的操作中进一步使用该列表
在我得到所有银行的名称之后，我需要找到偏差列的频率分布
下面的代码给出了对应于所有行的频率单元。我只想提取银行名称在df44['bank']中的行。任何帮助都将不胜感激

[IN]: bins = [0, 1,2,3,4,5] workbook['Deviation Bins'] = pd.cut(workbook['Deviation'], bins, include_lowest =True) workbook [OUT]: Bank Our Credit Rating External Credit Rating Deviation Deviation Bins A 11 12 1 (-inf.,1] D 10 8 2 (1,2] A 4 4 0 (-inf.,1] B 6 7 1 (-inf.,1] C 12 11 1 (-inf.,1] A 9 10 1 (-inf.,1]

应用
.aggregate（）
时，组进入返回数据帧的索引中，而不是列中。您可以做的是将索引转换为新列，例如：

df33['Bank'] = df33.index
然后，您可以筛选出感兴趣的组：

df44=df33[df33['Deviation']>=50]
对于第二部分，您需要使用
.isin（）
：

@ShailajaGuptaKapoor对不起，我改编剧本的时候是打字错误。它应该是df33。我刚刚编辑了答案。请让我知道，如果有任何其他问题的代码。感谢您的帮助前pndit。代码运行良好：）@ShailajaGuptaKapoor很高兴听到这个消息，很高兴能提供帮助！
workbook[workbook['Bank'].isin(df44['Bank'])]