如何用python删除dataframe中的重复数据记录_Python_Pandas_Dataframe_Duplicates

如何用python删除dataframe中的重复数据记录

python pandas dataframe

如何用python删除dataframe中的重复数据记录,python,pandas,dataframe,duplicates,Python,Pandas,Dataframe,Duplicates,[您好，亲爱的，我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中，我有两列“code”和“number”。有几个重复行的“code”值相同，每一个对应一个数字。我只希望保留一个代码，并将最大的代码保存到对应的数字中。例如： “a”有三个值：7、5和4。我希望它只保留7，并删除其余的值，其他代码也一样。有人能帮忙吗？非常感谢]创建数据帧作为示例： import pandas as pd df = pd.DataFra

[您好，亲爱的，我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中，我有两列“code”和“number”。有几个重复行的“code”值相同，每一个对应一个数字。我只希望保留一个代码，并将最大的代码保存到对应的数字中。例如：

“a”有三个值：7、5和4。我希望它只保留7，并删除其余的值，其他代码也一样。有人能帮忙吗？非常感谢]

创建数据帧作为示例：

import pandas as pd

df = pd.DataFrame({
    "code": pd.Series(["a", "a", "a", "b", "b"]),
    "number": pd.Series([1,7,3,8,4])
})

df

对数据帧进行排序，使代码具有顺序，然后以递增的方式对数字进行排序：

df_sorted = df.sort_values(by=["code","number"])

df_sorted

删除重复的

代码

，但保留最大

编号的代码

df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")

df_unique

非常感谢你，亚历杭德罗，这是一个完美的答案。最重要的是，我从你那里学到了这一点。非常感谢
code    number
0   a   1
2   a   3
1   a   7
4   b   4
3   b   8

df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")

df_unique

code    number
1   a   7
3   b   8