如何用python删除dataframe中的重复数据记录
[您好,亲爱的,我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中,我有两列“code”和“number”。有几个重复行的“code”值相同,每一个对应一个数字。我只希望保留一个代码,并将最大的代码保存到对应的数字中。例如:如何用python删除dataframe中的重复数据记录,python,pandas,dataframe,duplicates,Python,Pandas,Dataframe,Duplicates,[您好,亲爱的,我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中,我有两列“code”和“number”。有几个重复行的“code”值相同,每一个对应一个数字。我只希望保留一个代码,并将最大的代码保存到对应的数字中。例如: “a”有三个值:7、5和4。我希望它只保留7,并删除其余的值,其他代码也一样。有人能帮忙吗?非常感谢]创建数据帧作为示例: import pandas as pd df = pd.DataFra
“a”有三个值:7、5和4。我希望它只保留7,并删除其余的值,其他代码也一样。有人能帮忙吗?非常感谢]创建数据帧作为示例:
import pandas as pd
df = pd.DataFrame({
"code": pd.Series(["a", "a", "a", "b", "b"]),
"number": pd.Series([1,7,3,8,4])
})
df
对数据帧进行排序,使代码具有顺序,然后以递增的方式对数字进行排序:
df_sorted = df.sort_values(by=["code","number"])
df_sorted
删除重复的代码
,但保留最大编号的代码
df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")
df_unique
非常感谢你,亚历杭德罗,这是一个完美的答案。最重要的是,我从你那里学到了这一点。非常感谢
code number
0 a 1
2 a 3
1 a 7
4 b 4
3 b 8
df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")
df_unique
code number
1 a 7
3 b 8