Python 要使用OULAD数据集,如何连接或合并它们?

Python 要使用OULAD数据集,如何连接或合并它们?,python,pandas,data-analysis,Python,Pandas,Data Analysis,我正在使用它有7个csv文件,这些文件以OULAD网站图像中显示的方式链接在一起 其中一个名为student_registration的csv文件有32593行和5列,另一个名为student_Vle的csv文件有10655280行和6列 我想添加列date&sum_click from student_vle到student_registration table,这样只添加现有的32593名学生信息 我试过左键连接,但结果很奇怪。它有[13009427行x 11列],而不是32593行和8列。

我正在使用它有7个csv文件,这些文件以OULAD网站图像中显示的方式链接在一起

其中一个名为student_registration的csv文件有32593行和5列,另一个名为student_Vle的csv文件有10655280行和6列

我想添加列date&sum_click from student_vle到student_registration table,这样只添加现有的32593名学生信息

我试过左键连接,但结果很奇怪。它有[13009427行x 11列],而不是32593行和8列。这就像是联盟

您可以从UCI存储库获取数据集

这是我的密码-

    import pandas as pd
    import numpy as np

    student_reg = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentRegistration.csv')
    student_vle = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentVle.csv')

    student_reg_vle = pd.merge(student_reg, student_vle, on='id_student', how='left')
    student_reg_vle.set_index('id_student', inplace=True)
    print(student_reg_vle)

问题在于重复的数据,需要唯一的行,所以解决方案是删除重复:

student_vle = student_vle.drop_duplicates('id_student') 

运行该命令后,仍然有13009427行和11列。但在结果中,我需要8列(代码模块、代码演示、id学生、日期注册、日期注销、id站点、日期、总和单击)。我该怎么办?