Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/287.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何用python删除dataframe中的重复数据记录_Python_Pandas_Dataframe_Duplicates - Fatal编程技术网

如何用python删除dataframe中的重复数据记录

如何用python删除dataframe中的重复数据记录,python,pandas,dataframe,duplicates,Python,Pandas,Dataframe,Duplicates,[您好,亲爱的,我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中,我有两列“code”和“number”。有几个重复行的“code”值相同,每一个对应一个数字。我只希望保留一个代码,并将最大的代码保存到对应的数字中。例如: “a”有三个值:7、5和4。我希望它只保留7,并删除其余的值,其他代码也一样。有人能帮忙吗?非常感谢]创建数据帧作为示例: import pandas as pd df = pd.DataFra

[您好,亲爱的,我是学习python和pandas的新手。我想用python和pandas删除我的数据框中包含重复数据的重复数据记录。在数据框中,我有两列“code”和“number”。有几个重复行的“code”值相同,每一个对应一个数字。我只希望保留一个代码,并将最大的代码保存到对应的数字中。例如:
“a”有三个值:7、5和4。我希望它只保留7,并删除其余的值,其他代码也一样。有人能帮忙吗?非常感谢]

创建数据帧作为示例:

import pandas as pd

df = pd.DataFrame({
    "code": pd.Series(["a", "a", "a", "b", "b"]),
    "number": pd.Series([1,7,3,8,4])
})

df
对数据帧进行排序,使代码具有顺序,然后以递增的方式对数字进行排序:

df_sorted = df.sort_values(by=["code","number"])

df_sorted
删除重复的
代码
,但保留最大
编号的
代码

df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")

df_unique

非常感谢你,亚历杭德罗,这是一个完美的答案。最重要的是,我从你那里学到了这一点。非常感谢
code    number
0   a   1
2   a   3
1   a   7
4   b   4
3   b   8
df_unique = df_sorted.drop_duplicates(subset="code", inplace=False, keep="last")

df_unique
code    number
1   a   7
3   b   8