Python 删除csv文件中的重复项无标题
很抱歉问了一个愚蠢的问题,我对python和pandas还不熟悉 假设我有一个csv文件,每行都有一些数据,例如:Python 删除csv文件中的重复项无标题,python,pandas,Python,Pandas,很抱歉问了一个愚蠢的问题,我对python和pandas还不熟悉 假设我有一个csv文件,每行都有一些数据,例如: data1, data2, data3, data4 没有标题,只有数据,如果需要,我需要删除此类文件中的一些行 (row1.data3 and row1.data4) == (row2.data3 and row2.data4) 整行将被删除 我怎样才能做到这一点 我确实尝试过使用remove_duplicates,但是没有标题,我不知道怎么做 干杯假设您碰巧有一个没有标题
data1, data2, data3, data4
没有标题,只有数据,如果需要,我需要删除此类文件中的一些行
(row1.data3 and row1.data4) == (row2.data3 and row2.data4)
整行将被删除
我怎样才能做到这一点
我确实尝试过使用remove_duplicates,但是没有标题,我不知道怎么做
干杯假设您碰巧有一个没有标题的
df
:
df = pd.read_csv("./try.csv", header=None)
df
# The first row is integers inserted instead of missing column names
0 1 2
0 1 1 1
1 1 1 1
2 2 1 3
3 2 1 3
4 3 2 3
5 3 3 3
然后,您可以在列的子集上删除\u重复项
:
df.drop_duplicates([0])
0 1 2
0 1 1 1
2 2 1 3
4 3 2 3
或
不要忘记将结果分配给新变量或添加
inplace=True
,以确保在删除重复项后重置数据帧,对吗?除非您要求,否则删除重复项不起作用。标题在这里并不重要。如果一行是另一行的副本,并且它们是相同的数据类型,则删除\u duplicates应删除它。向我们展示您迄今为止的代码。@User158307如果答案对您有效,为什么不接受它?
df.drop_duplicates([0,1])
0 1 2
0 1 1 1
2 2 1 3
4 3 2 3
5 3 3 3