当.csv文件行中的所有值与Python相同时删除重复项

当.csv文件行中的所有值与Python相同时删除重复项,python,pandas,csv,duplicates,row,Python,Pandas,Csv,Duplicates,Row,我正在处理高度非结构化的.csv报告,我正在努力使用drop_duplicates功能。我的数据集的形状是4084行39列 我的任务相当简单:我想使用drop_duplicates,这样它就可以删除所有39个列值相同但没有其他内容的每一行 我尝试了以下代码块,其中没有重复项的新文件将保存为“crm_pre_eidup”,但我只得到TypeError:“tuple”对象不可调用” 我很确定,解决方案仅仅在于使用: DataFrame.drop\u duplicates(self,subset:Un

我正在处理高度非结构化的.csv报告,我正在努力使用drop_duplicates功能。我的数据集的形状是4084行39列

我的任务相当简单:我想使用drop_duplicates,这样它就可以删除所有39个列值相同但没有其他内容的每一行

我尝试了以下代码块,其中没有重复项的新文件将保存为“crm_pre_eidup”,但我只得到TypeError:“tuple”对象不可调用”

我很确定,解决方案仅仅在于使用:
DataFrame.drop\u duplicates(self,subset:Union[Hashable,Sequence[Hashable],NoneType]=None,keep:Union[str,bool]=first',in place:bool=False,ignore\u index:bool=False)

您能尝试以下更改吗

  • 多重分隔符需要添加|,因为它需要一个正则表达式 大于1时的表达式
  • filename=crm\u预处理
  • 默认情况下,重复数据消除使用所有列,因此您可以删除该参数
  • 确保工作文件夹设置正确或指定完整路径
'''

参考:及

ParserError:saw 188第2893行中应该有40个字段。错误可能是因为使用多字符分隔符时忽略了引号。如果您知道qoutes类型,请将其添加到正则表达式中:
sep='(“\t”)|(“,””)
for“as quotes
import pandas as pd
from csv import reader
crm_preprocessed = "CRM_kaikki_data_Pekka1.csv"
crm_pre_eidup = "CRM_kaikki_data_eidup.csv"

df = pd.read_csv(file_name, sep="\t or ,", engine='python')

# Notes:
# - the `subset=None` means that every column is used 
#    to determine if two rows are different; to change that specify
#    the columns as an array
# - the `inplace=True` means that the data structure is changed and
#   the duplicate rows are gone  
df.drop_duplicates(subset=None, inplace=True)

# Write the results to a different file
#df=pd.DataFrame(list(reader(crm_pre_eidup)))
df.to_csv(crm_pre_eidup)
df.head()
import pandas as pd
from csv import reader

crm_preprocessed = "CRM_kaikki_data_Pekka1.csv"
crm_pre_eidup = "CRM_kaikki_data_eidup.csv"

df = pd.read_csv(crm_preprocessed , sep='\t|,', engine='python')

# Notes:
# - the `subset=None` means that every column is used 
#    to determine if two rows are different; to change that specify
#    the columns as an array
# - the `inplace=True` means that the data structure is changed and
#   the duplicate rows are gone  
df.drop_duplicates(inplace=True)

# Write the results to a different file
#df=pd.DataFrame(list(reader(crm_pre_eidup)))
df.to_csv(crm_pre_eidup)
df.head()