Python 将数据帧中的副本移动到新数据帧

Python 将数据帧中的副本移动到新数据帧,python,pandas,dataframe,Python,Pandas,Dataframe,我正试图通过熊猫数据帧进行排序,并找到重复项 然而,我不只是试图找到重复的,并摆脱他们。我需要确切地看到哪两个(或更多)文件号包含相同的EIN,并将其移动到新的数据帧 例如,如果文件_num 376和7212包含完全相同的EIN(12370123723),我想创建一个如下所示的数据帧: EIN: file_num 12370123723 376, 7212 如果有人对如何做这样的事情有任何建议,我们将不胜感激。我尝试使用.duplicated()方法,但这只返回

我正试图通过熊猫数据帧进行排序,并找到重复项

然而,我不只是试图找到重复的,并摆脱他们。我需要确切地看到哪两个(或更多)文件号包含相同的EIN,并将其移动到新的数据帧

例如,如果文件_num 376和7212包含完全相同的EIN(12370123723),我想创建一个如下所示的数据帧:

EIN:            file_num
12370123723     376, 7212
如果有人对如何做这样的事情有任何建议,我们将不胜感激。我尝试使用.duplicated()方法,但这只返回布尔值,不能确切地告诉我哪些文件与哪些文件重复。

请执行以下操作:

dups = df[df.EIN.duplicated(keep=False)]
dups.groupby("EIN")["file_num"].apply(list)
以下是合成数据的结果:

数据:

输出:

EIN
0          [2, 7]
2          [0, 8]
5    [1, 3, 4, 5]

df.groupby('EIN')['file_num'].agg(list)
。如果它回答了你的问题,如果你能为后代接受我的答案就太好了(单击答案旁边的灰色复选标记,将其从灰色变为绿色)。当然,这让我等了几分钟才能接受答案。谢谢
EIN
0          [2, 7]
2          [0, 8]
5    [1, 3, 4, 5]