Python 要使用OULAD数据集,如何连接或合并它们?
我正在使用它有7个csv文件,这些文件以OULAD网站图像中显示的方式链接在一起 其中一个名为student_registration的csv文件有32593行和5列,另一个名为student_Vle的csv文件有10655280行和6列 我想添加列date&sum_click from student_vle到student_registration table,这样只添加现有的32593名学生信息 我试过左键连接,但结果很奇怪。它有[13009427行x 11列],而不是32593行和8列。这就像是联盟 您可以从UCI存储库获取数据集 这是我的密码-Python 要使用OULAD数据集,如何连接或合并它们?,python,pandas,data-analysis,Python,Pandas,Data Analysis,我正在使用它有7个csv文件,这些文件以OULAD网站图像中显示的方式链接在一起 其中一个名为student_registration的csv文件有32593行和5列,另一个名为student_Vle的csv文件有10655280行和6列 我想添加列date&sum_click from student_vle到student_registration table,这样只添加现有的32593名学生信息 我试过左键连接,但结果很奇怪。它有[13009427行x 11列],而不是32593行和8列。
import pandas as pd
import numpy as np
student_reg = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentRegistration.csv')
student_vle = pd.read_csv('/home/user/Documents/MOOC dataset cleaned/studentVle.csv')
student_reg_vle = pd.merge(student_reg, student_vle, on='id_student', how='left')
student_reg_vle.set_index('id_student', inplace=True)
print(student_reg_vle)
问题在于重复的数据,需要唯一的行,所以解决方案是删除重复:
student_vle = student_vle.drop_duplicates('id_student')
运行该命令后,仍然有13009427行和11列。但在结果中,我需要8列(代码模块、代码演示、id学生、日期注册、日期注销、id站点、日期、总和单击)。我该怎么办?