Csv 我想知道如何提取重复信息

Csv 我想知道如何提取重复信息,csv,pandas,ipython-notebook,Csv,Pandas,Ipython Notebook,所以我对熊猫蟒蛇还不熟悉。目前,我的任务是确定“id”列中的哪些id是重复的。例如,如果ID 413出现超过1次,则认为它是重复的。因为有超过600000个ID,我需要知道它的代码。请帮忙 您可以使用它返回一个布尔序列来屏蔽df,然后调用以返回重复ID的数组: In [196]: df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]}) df Out[196]: ID 0 0 1 1 2 1 3 3 4 4 5 5 6 6

所以我对熊猫蟒蛇还不熟悉。目前,我的任务是确定“id”列中的哪些id是重复的。例如,如果ID 413出现超过1次,则认为它是重复的。因为有超过600000个ID,我需要知道它的代码。请帮忙

您可以使用它返回一个布尔序列来屏蔽df,然后调用以返回重复ID的数组:

In [196]:

df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
df
Out[196]:
   ID
0   0
1   1
2   1
3   3
4   4
5   5
6   6
7   6
8   6
In [201]:

df[df['ID'].duplicated()]['ID'].unique()
Out[201]:
array([1, 6], dtype=int64)

@用户3814631别担心,如果这回答了您的问题,就像我的其他回答一样,请接受它们,我的回答左上角将有一个空的勾号,干杯