Pandas 基于所有列值创建重复标志
我有一个如下所示的数据帧Pandas 基于所有列值创建重复标志,pandas,pandas-groupby,Pandas,Pandas Groupby,我有一个如下所示的数据帧 Ind_ID Team_ID Status Date 1 1 Win 13-08-2019 1 1 Lost 14-10-2019 1 1 Win 13-08-2019 1 1 Win 13-08-2019 我是pytho
Ind_ID Team_ID Status Date
1 1 Win 13-08-2019
1 1 Lost 14-10-2019
1 1 Win 13-08-2019
1 1 Win 13-08-2019
我是python的新手。在上面的数据框中,我想添加一列来指示重复项。我们认为重复是行对行匹配。
Ind_ID Team_ID Status Date Duplicate
1 1 Win 13-08-2019 No
1 1 Lost 14-10-2019 No
1 1 Win 13-08-2019 Yes
1 1 Win 13-08-2019 Yes
请注意,第一个相同的不应标记为重复项。用于:
或者,如果需要按对测试行,请按以下方式为组添加帮助器列:
详细信息:
print (df.assign(new=df.index // 2))
Ind_ID Team_ID Status Date new
0 1 1 Win 13-08-2019 0
1 1 1 Lost 14-10-2019 0
2 1 1 Win 13-08-2019 1
3 1 1 Win 13-08-2019 1
df['Duplicate'] = np.where(df.assign(new=df.index // 2).duplicated(keep=False), 'Yes','No')
print (df)
Ind_ID Team_ID Status Date Duplicate
0 1 1 Win 13-08-2019 No
1 1 1 Lost 14-10-2019 No
2 1 1 Win 13-08-2019 Yes
3 1 1 Win 13-08-2019 Yes
print (df.assign(new=df.index // 2))
Ind_ID Team_ID Status Date new
0 1 1 Win 13-08-2019 0
1 1 1 Lost 14-10-2019 0
2 1 1 Win 13-08-2019 1
3 1 1 Win 13-08-2019 1