Python：合并文件并删除重复项_Python_Pandas_Duplicates

Python：合并文件并删除重复项

python pandas

Python：合并文件并删除重复项,python,pandas,duplicates,Python,Pandas,Duplicates,我有3个excel文件，每个文件有4000行和5列。我希望将excel文件合并到一个数据框中，并删除重复的行。随后，我希望将结果发布为excel文件： import pandas as pd import numpy as np filenames = ['Sample_a.xlsx','Sample_b.xlsx','Sample_c.xlsx'] dataframes = [pd.read_excel(f) for f in filenames] new_dataframe

我有3个excel文件，每个文件有4000行和5列。我希望将excel文件合并到一个数据框中，并删除重复的行。随后，我希望将结果发布为excel文件：

 import pandas as pd

 import numpy as np

 filenames = ['Sample_a.xlsx','Sample_b.xlsx','Sample_c.xlsx']

 dataframes = [pd.read_excel(f) for f in filenames]

 new_dataframe = df.dropduplicates(dataframes)

我在这方面哪里出了问题？

如果不能够复制您的结果，很难说出来（我们不知道您的文件中有什么），但您正在尝试从数据帧列表中消除重复项。您不应该对数据帧本身进行操作吗

new_dataframes = [df.drop_duplicates(d) for d in dataframes]

如果不能复制结果（我们不知道文件中有什么），很难判断，但您正在尝试从数据帧列表中消除重复项。您不应该对数据帧本身进行操作吗

new_dataframes = [df.drop_duplicates(d) for d in dataframes]

将excel文件转换为列表到

dataframes

变量后，需要将其转换为数据框。我找到了一个解决方案，希望你能在这里看到答案

`import pandas as pd
import numpy as np

filenames = ['csv/2009.xlsx', 'csv/2010.xlsx', 'csv/2011.xlsx']
olddf=pd.DataFrame()
for f in filenames:
    df=pd.read_excel(f)
    olddf=pd.concat([olddf,df]).drop_duplicates().reset_index(drop=True)`

将excel文件转换为列表到

dataframes

变量后，需要将其转换为数据框。我找到了一个解决方案，希望你能在这里看到答案

`import pandas as pd
import numpy as np

filenames = ['csv/2009.xlsx', 'csv/2010.xlsx', 'csv/2011.xlsx']
olddf=pd.DataFrame()
for f in filenames:
    df=pd.read_excel(f)
    olddf=pd.concat([olddf,df]).drop_duplicates().reset_index(drop=True)`

变量

dataframes

在本例中只是一个列表，而不是一个合并的数据帧。我建议阅读组合数据帧。本例中的变量

dataframes

只是一个列表，而不是一个合并的数据帧。我建议阅读关于组合数据帧的文章。很好，你找到了一个解决方案。一般来说，将你的解决方案作为解决方案发布是一种很好的方式，这样人们就可以看到你的困难所在，并从你的答案中学习。当然，我对堆栈溢出是新手。从下一个答案来看，我会尽力去做。谢谢你的建议。很高兴你找到了解决办法。一般来说，将你的解决方案作为解决方案发布是一种很好的方式，这样人们就可以看到你的困难所在，并从你的答案中学习。当然，我对堆栈溢出是新手。从下一个答案来看，我会尽力去做。谢谢你的建议。假设我有相同行的文件：“A B C D”。我想从新的数据框中删除相同的行，并在新的excel文件中获得输出。我想从新的数据框中删除相同的行，并在新的excel文件中获得输出。