当.csv文件行中的所有值与Python相同时删除重复项_Python_Pandas_Csv_Duplicates_Row

当.csv文件行中的所有值与Python相同时删除重复项

python pandas csv

当.csv文件行中的所有值与Python相同时删除重复项,python,pandas,csv,duplicates,row,Python,Pandas,Csv,Duplicates,Row,我正在处理高度非结构化的.csv报告，我正在努力使用drop_duplicates功能。我的数据集的形状是4084行39列我的任务相当简单：我想使用drop_duplicates，这样它就可以删除所有39个列值相同但没有其他内容的每一行我尝试了以下代码块，其中没有重复项的新文件将保存为“crm_pre_eidup”，但我只得到TypeError:“tuple”对象不可调用” 我很确定，解决方案仅仅在于使用： DataFrame.drop\u duplicates（self，subset:Un

我正在处理高度非结构化的.csv报告，我正在努力使用drop_duplicates功能。我的数据集的形状是4084行39列

我的任务相当简单：我想使用drop_duplicates，这样它就可以删除所有39个列值相同但没有其他内容的每一行

我尝试了以下代码块，其中没有重复项的新文件将保存为“crm_pre_eidup”，但我只得到TypeError:“tuple”对象不可调用”

我很确定，解决方案仅仅在于使用：

DataFrame.drop\u duplicates（self，subset:Union[Hashable，Sequence[Hashable]，NoneType]=None，keep:Union[str，bool]=first'，in place:bool=False，ignore\u index:bool=False）

您能尝试以下更改吗

多重分隔符需要添加|，因为它需要一个正则表达式大于1时的表达式
filename=crm\u预处理
默认情况下，重复数据消除使用所有列，因此您可以删除该参数
确保工作文件夹设置正确或指定完整路径

'''

参考：及

ParserError:saw 188第2893行中应该有40个字段。错误可能是因为使用多字符分隔符时忽略了引号。如果您知道qoutes类型，请将其添加到正则表达式中：

sep='（“\t”）|（“，””）

for“as quotes

import pandas as pd
from csv import reader
crm_preprocessed = "CRM_kaikki_data_Pekka1.csv"
crm_pre_eidup = "CRM_kaikki_data_eidup.csv"

df = pd.read_csv(file_name, sep="\t or ,", engine='python')

# Notes:
# - the `subset=None` means that every column is used 
#    to determine if two rows are different; to change that specify
#    the columns as an array
# - the `inplace=True` means that the data structure is changed and
#   the duplicate rows are gone  
df.drop_duplicates(subset=None, inplace=True)

# Write the results to a different file
#df=pd.DataFrame(list(reader(crm_pre_eidup)))
df.to_csv(crm_pre_eidup)
df.head()

import pandas as pd
from csv import reader

crm_preprocessed = "CRM_kaikki_data_Pekka1.csv"
crm_pre_eidup = "CRM_kaikki_data_eidup.csv"

df = pd.read_csv(crm_preprocessed , sep='\t|,', engine='python')

# Notes:
# - the `subset=None` means that every column is used 
#    to determine if two rows are different; to change that specify
#    the columns as an array
# - the `inplace=True` means that the data structure is changed and
#   the duplicate rows are gone  
df.drop_duplicates(inplace=True)

# Write the results to a different file
#df=pd.DataFrame(list(reader(crm_pre_eidup)))
df.to_csv(crm_pre_eidup)
df.head()