Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 删除.csv中的所有行,但在列中有重复单元格的行除外_Python_Python 3.x_Pandas - Fatal编程技术网

Python 删除.csv中的所有行,但在列中有重复单元格的行除外

Python 删除.csv中的所有行,但在列中有重复单元格的行除外,python,python-3.x,pandas,Python,Python 3.x,Pandas,由于某些正则表达式错误,我在.csv文件中有许多行是相同的,但格式略有不同,URL始终是公共变量。我需要在“tx”列中找到所有重复的url,并删除除第一个以外的所有url .csv约为5万行。系统是Windows 我尝试的是: # importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("dupes.csv") # dropping ALL du

由于某些正则表达式错误,我在
.csv
文件中有许多行是相同的,但格式略有不同,URL始终是公共变量。我需要在“tx”列中找到所有重复的url,并删除除第一个以外的所有url

.csv
约为5万行。系统是Windows

我尝试的是:

# importing pandas package 
import pandas as pd 

# making data frame from csv file 
data = pd.read_csv("dupes.csv")


# dropping ALL duplicte values 
df = data.drop_duplicates(subset ="TxHash\tx", keep = "first", inplace = True) 

data.to_csv('nodupes.csv', index=False)
所有列的末尾都有/t,不确定如何删除它们,也尝试了许多变化,包括使用Pandas设置新的标题。已尝试过许多解决方案,但大多数都会导致此错误:

升起键错误(差异)
KeyError:索引(['TxHash\t'],dtype='object')


read\u csv
中的默认分隔符是
,因此对于选项卡,必须添加
sep='\t'
,对于就地操作,也返回
None
,因此可能有两种解决方案是删除它或不重新分配:

data = pd.read_csv("dupes.csv", sep='\t')

df = data.drop_duplicates(subset ="TxHash")
print (df)


所以需要
df=data.drop_duplicates(subset=“TxHash\t”)
?返回什么
print(list(data.columns))
?是的,在编辑它时正在更改,已经尝试了所有的组合。这是-['Buy Token\tBuy Amount\tSell Token\tSell Amount\tMaker\tKill\tTxHash']Hmm的结果,似乎有制表符分隔符,所以需要
data=pd.read\u csv(“dupes.csv”,sep='\t')
然后
df=data.drop\u duplicates(subset=“TxHash”)
谢谢,解决了这个问题。
data.drop_duplicates(subset ="TxHash", inplace=True)
print (data)