Python:标记重复行
我使用下面的代码来表示重复的行Python:标记重复行,python,pandas,duplicates,Python,Pandas,Duplicates,我使用下面的代码来表示重复的行 df['duplicate']=df.Column_A.duplicated() 但是,当我查看df时,我看到以下内容: Column_A | duplicate AAA False ABC False ABC True 我需要第2行也是真的,这样我就可以很容易地过滤“复制”行。我怎样才能做到这一点 根据使用保留参数并设置为False。正如您所看到的,它默认为first import pandas as pd df
df['duplicate']=df.Column_A.duplicated()
但是,当我查看df时,我看到以下内容:
Column_A | duplicate
AAA False
ABC False
ABC True
我需要第2行也是真的,这样我就可以很容易地过滤“复制”行。我怎样才能做到这一点 根据使用保留
参数并设置为False
。正如您所看到的,它默认为first
import pandas as pd
df = pd.DataFrame({'Column_A': ['AAA', 'AAB', 'AAB', 'AAC']})
df['duplicate'] = df.duplicated(keep=False)
print(df)
Column_A duplicate
0 'AAA' False
1 'AAB' True
2 'AAB' True
3 'AAC' False
我想象自己迷失在荒野中,我所能生存的就是
pd.factorize
和np.bincount
请不要接受这个答案
很好的解决方案,乔希+1.
f, u = pd.factorize(df.Column_A.values)
df.assign(duplicate=np.bincount(f)[f] > 1)
Column_A duplicate
0 AAA False
1 ABC True
2 ABC True