Python 删除重复的文件_Python_Pandas

Python 删除重复的文件

python pandas

Python 删除重复的文件,python,pandas,Python,Pandas,尝试使用DataFrame.drop_duplicates参数，但运气不佳，因为没有删除重复项正在根据“inc_id”列查找要删除的内容。如果在该列中找到重复项，则应仅保留最后一行我的df是： inc_id inc_cr_date 0 1049670 121 1 1049670 55 2 1049667 121 3 1049640 89 4 1049666 12 5 1049666 25 输出应为： inc_id inc_cr_date 0

尝试使用DataFrame.drop_duplicates参数，但运气不佳，因为没有删除重复项

正在根据“inc_id”列查找要删除的内容。如果在该列中找到重复项，则应仅保留最后一行

我的df是：

    inc_id  inc_cr_date
0   1049670 121
1   1049670 55
2   1049667 121
3   1049640 89
4   1049666 12
5   1049666 25

输出应为：

    inc_id  inc_cr_date
0   1049670 55
1   1049667 121
2   1049640 89
3   1049666 25

代码是：

df = df.drop_duplicates(subset='inc_id', keep="last")

你知道我在这里遗漏了什么吗？谢谢。

我想你只是想：

对于dataframe df，可以使用此代码删除重复的行

df = pd.read_csv('./data/data-set.csv')
print(df['text'])

def clean_data(dataframe):
    # Drop duplicate rows
    dataframe.drop_duplicates(subset='text', inplace=True)

clean_data(df)
print(df['text'])

你能发布你得到的输出吗？看起来是错误的？实际上不是错误，但是df系列继续重复。感谢可能的副本：的可能副本似乎不起作用，因为df继续使用副本。谢谢。@Gonzalo这是运行您示例中的代码！你的解决方案错在哪里？你能在你的问题中包括你的例子中的“坏输出”吗？@Gonzalo，把它分配回

df=df。删除重复项（subset='inc\u id'，keep=“last”）。重置索引（drop=True）

@并且我的坏，它正在进行你的调整。我在寻找错误的输出（保存到csvs…）谢谢。您好，欢迎使用stack overflow。如果你能给出你的答案并对其进行扩展，分享你的代码如何添加到前面的答案中，并帮助回答最初的问题，那就太棒了

f.删除重复项（subset='inc\u id'，keep=“last”）。重置索引（drop=True）

确实作为接受答案的一部分出现。

f.drop_duplicates(subset='inc_id', keep="last").reset_index(drop=True)

df = pd.read_csv('./data/data-set.csv')
print(df['text'])

def clean_data(dataframe):
    # Drop duplicate rows
    dataframe.drop_duplicates(subset='text', inplace=True)

clean_data(df)
print(df['text'])