如何在python anaconda中组合xlsx文件?

如何在python anaconda中组合xlsx文件?,python,anaconda,data-analysis,jointable,Python,Anaconda,Data Analysis,Jointable,我正在学习数据分析,但他们给我的数据库分为13个部分,每个部分有13个文件。我检查了每个部分,发现每个文件的前10列都作为标题重复,以连接文件,特别是“id”和“date”两列。作为上下文,这个数据库是200万个伪造医疗记录的记录,所以我想将所有id和日期相同的行与所有其他列连接起来,但我想保留没有任何其他匹配行的行 files = glob.glob('*.xlsx') df_list = [] for the file in files: df = pd.read_excel(file)

我正在学习数据分析,但他们给我的数据库分为13个部分,每个部分有13个文件。我检查了每个部分,发现每个文件的前10列都作为标题重复,以连接文件,特别是“id”和“date”两列。作为上下文,这个数据库是200万个伪造医疗记录的记录,所以我想将所有id和日期相同的行与所有其他列连接起来,但我想保留没有任何其他匹配行的行

files = glob.glob('*.xlsx')
df_list = []
for the file in files:
  df = pd.read_excel(file)
  df['file'] = file
  df_list.append(df)

到目前为止,我已经能够加入所有的文件,但我无法通过列验证进行加入。谢谢您的时间。

您需要查看数据帧

fdf = pd.concat(df_list)

抱歉,我尝试了你的方法,但没有成功。显然,我的索引有一些问题,但我解决了。谢谢