Python 删除重复的和原始的行-行
我正试图从下面的数据帧Python 删除重复的和原始的行-行,python,pandas,Python,Pandas,我正试图从下面的数据帧df中删除所有具有重复项的记录 sales_id sales_line 100 1 100 1 200 1 300 2 300 2 400 3 500 1 500 1 600 5 我试图实现的预期输出如下所示 sales_id sales_line 200 1 400 3
df
中删除所有具有重复项的记录
sales_id sales_line
100 1
100 1
200 1
300 2
300 2
400 3
500 1
500 1
600 5
我试图实现的预期输出如下所示
sales_id sales_line
200 1
400 3
600 5
任何人能提供的任何帮助都将不胜感激 您可以尝试使用
删除重复项(self,subset=None,keep=“first”,inplace=False)
在您的例子中,函数的重要部分是keep=False
将熊猫作为pd导入
数据={'sales_id':[100100200300300400500600],'sales_line':[1,1,1,2,2,3,1,1,5]}
df=pd.DataFrame(数据)
打印('源数据帧:\n',df)
df_drop=df.drop_duplicates(子集=['sales_id','sales_line',],keep=False)
打印('结果数据框:\n',df\u已删除)
与keep=False一起使用
删除所有列中的重复项:
df = df.drop_duplicates(keep=False)
print (df)
sales_id sales_line
2 200 1
5 400 3
8 600 5
删除所有重复值
这将为您提供预期的输出为什么您希望
200 1
而不是500 1
,这是sales\u line=1的最后一个条目
data.drop_duplicates(keep = False, inplace = True)