Csv H2O无人驾驶AI是否内置支持合并多个数据集并使用合并的数据集进行培训?

Csv H2O无人驾驶AI是否内置支持合并多个数据集并使用合并的数据集进行培训?,csv,h2o,training-data,merging-data,driverless-ai,Csv,H2o,Training Data,Merging Data,Driverless Ai,假设我们有三个数据集,其中包含一家公司的数据 employee.csv:此数据集包含在公司工作的员工的详细信息,如员工ID、员工姓名、他所在部门的部门ID、他所在国家的国家代码以及他的年薪 dept.csv:此数据集包含有关公司部门的信息,如部门id、部门名称、部门专业化 country.csv:此数据集包含一些国家名称及其国家代码和首都 H2O无人驾驶AI中是否有一个功能,我们可以上传这些数据集(不使用python进行合并),并将其合并到H2O无人驾驶AI平台中,并使用重叠列进行培训?是的,您

假设我们有三个数据集,其中包含一家公司的数据

  • employee.csv:此数据集包含在公司工作的员工的详细信息,如员工ID、员工姓名、他所在部门的部门ID、他所在国家的国家代码以及他的年薪
  • dept.csv:此数据集包含有关公司部门的信息,如部门id、部门名称、部门专业化
  • country.csv:此数据集包含一些国家名称及其国家代码和首都

  • H2O无人驾驶AI中是否有一个功能,我们可以上传这些数据集(不使用python进行合并),并将其合并到H2O无人驾驶AI平台中,并使用重叠列进行培训?

    是的,您可以使用数据配方来处理数据集(包括加入数据集)。有关数据配方的更多信息,请参阅。您可以创建加入数据集的配方

    # Let's join a `employee.csv` (X) to `dept.csv` (Y1) and `country.csv` (Y2)
    # Define and read locations of datasets for Y1/Y2
    Y_file_name1 = "./tmp/user/location_of_dept.csv.bin"
    Y_file_name2 = "./tmp/user/location_of_country.csv.bin"
    Y1 = dt.fread(Y_file_name1)
    Y2 = dt.fread(Y_file_name2)
    
    # Set key and join Y1
    key1 = ["dept_id"]
    Y1.key = key1
    X = X[:, :, dt.join(Y1)]
    
    # Set key and join Y2
    key2 = ["country_code"]
    Y2.key = key2
    X = X[:, :, dt.join(Y2)]
    
    return X
    
    请参见将一个数据集连接到另一个数据集的示例