Python：标记重复行_Python_Pandas_Duplicates

Python：标记重复行

python pandas

Python：标记重复行,python,pandas,duplicates,Python,Pandas,Duplicates,我使用下面的代码来表示重复的行 df['duplicate']=df.Column_A.duplicated() 但是，当我查看df时，我看到以下内容： Column_A | duplicate AAA False ABC False ABC True 我需要第2行也是真的，这样我就可以很容易地过滤“复制”行。我怎样才能做到这一点根据使用保留参数并设置为False。正如您所看到的，它默认为first import pandas as pd df

我使用下面的代码来表示重复的行

df['duplicate']=df.Column_A.duplicated()

但是，当我查看df时，我看到以下内容：

Column_A | duplicate
AAA        False
ABC        False
ABC        True

我需要第2行也是真的，这样我就可以很容易地过滤“复制”行。我怎样才能做到这一点

根据使用

保留

参数并设置为

False

。正如您所看到的，它默认为

first

import pandas as pd

df = pd.DataFrame({'Column_A': ['AAA', 'AAB', 'AAB', 'AAC']})
df['duplicate'] = df.duplicated(keep=False)

print(df)

     Column_A  duplicate
0    'AAA'     False
1    'AAB'     True
2    'AAB'     True
3    'AAC'     False

我想象自己迷失在荒野中，我所能生存的就是

pd.factorize

和

np.bincount

请不要接受这个答案

很好的解决方案，乔希+1.

f, u = pd.factorize(df.Column_A.values)
df.assign(duplicate=np.bincount(f)[f] > 1)

  Column_A  duplicate
0      AAA      False
1      ABC       True
2      ABC       True