Python 删除.csv中的所有行，但在列中有重复单元格的行除外_Python_Python 3.x_Pandas

Python 删除.csv中的所有行，但在列中有重复单元格的行除外

python python-3.x pandas

Python 删除.csv中的所有行，但在列中有重复单元格的行除外,python,python-3.x,pandas,Python,Python 3.x,Pandas,由于某些正则表达式错误，我在.csv文件中有许多行是相同的，但格式略有不同，URL始终是公共变量。我需要在“tx”列中找到所有重复的url，并删除除第一个以外的所有url .csv约为5万行。系统是Windows 我尝试的是： # importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("dupes.csv") # dropping ALL du

由于某些正则表达式错误，我在

.csv

文件中有许多行是相同的，但格式略有不同，URL始终是公共变量。我需要在“tx”列中找到所有重复的url，并删除除第一个以外的所有url

.csv

约为5万行。系统是Windows

我尝试的是：

# importing pandas package 
import pandas as pd 

# making data frame from csv file 
data = pd.read_csv("dupes.csv")


# dropping ALL duplicte values 
df = data.drop_duplicates(subset ="TxHash\tx", keep = "first", inplace = True) 

data.to_csv('nodupes.csv', index=False)

所有列的末尾都有/t，不确定如何删除它们，也尝试了许多变化，包括使用Pandas设置新的标题。已尝试过许多解决方案，但大多数都会导致此错误：

升起键错误（差异）
KeyError:索引（['TxHash\t']，dtype='object'）

read\u csv

中的默认分隔符是

，

，因此对于选项卡，必须添加

sep='\t'

，对于就地操作，也返回

None

，因此可能有两种解决方案是删除它或不重新分配：

data = pd.read_csv("dupes.csv", sep='\t')

df = data.drop_duplicates(subset ="TxHash")
print (df)

所以需要

df=data.drop_duplicates（subset=“TxHash\t”）

？返回什么

print（list（data.columns））

？是的，在编辑它时正在更改，已经尝试了所有的组合。这是-['Buy Token\tBuy Amount\tSell Token\tSell Amount\tMaker\tKill\tTxHash']Hmm的结果，似乎有制表符分隔符，所以需要

data=pd.read\u csv（“dupes.csv”，sep='\t'）

然后

df=data.drop\u duplicates（subset=“TxHash”）

谢谢，解决了这个问题。

data.drop_duplicates(subset ="TxHash", inplace=True)
print (data)