多属性色谱柱的H2O处理

多属性色谱柱的H2O处理,h2o,H2o,H2O如何处理多属性分类功能,即具有逗号分隔值的列,如“1,2,3”、“1,4”、“1,2”?我是否需要将它们手动拆分为多个列—一个热编码 更具体地说,假设数据是选项卡分隔的文件,如下所示: col1 col2 1 1,2,3 2 1,4 1 1,2 答案取决于这些数字代表什么 一个热编码涉及获取一个分类列并将该列扩展为一组布尔列。这里的假设是,在这些布尔列中,一个训练观测值一次只能属于一个列,而这正是“一个热”中的一个列的来源-只有一个列可以处于活动状态 如果你想考虑1,2,

H2O如何处理多属性分类功能,即具有逗号分隔值的列,如“1,2,3”、“1,4”、“1,2”?我是否需要将它们手动拆分为多个列—一个热编码

更具体地说,假设数据是选项卡分隔的文件,如下所示:

col1 col2 1 1,2,3 2 1,4 1 1,2
答案取决于这些数字代表什么

一个热编码涉及获取一个分类列并将该列扩展为一组布尔列。这里的假设是,在这些布尔列中,一个训练观测值一次只能属于一个列,而这正是“一个热”中的一个列的来源-只有一个列可以处于活动状态

如果你想考虑1,2,3,它是自己的类别而不是三个类别,那么这就是你想要代表数据的方式。在这种情况下,您可以保持数据原样,因为H2O将自动在引擎盖下对分类列进行热编码,只要它们被编码为因子aka enum type。假设您的数据框就是这三行,那么将有三个类别:1、2、3、1、4和1、2

如果col2中的1,2,3值表示第1行与三个独立的类别相关联,则应手动将col2替换为C二进制指示符列,其中C是类别的总数。同样,如果这三行代表了整个数据帧,那么应该用四列替换col2。您的新数据框如下所示:

col1 col2_1 col2_2 col2_3 col2_4  
1    1      1      1      0
2    1      0      0      1
1    1      1      0      0 

H2O需要表格数据。请以表格格式举例说明您的数据。我不知道这些值是否代表数据的一个单元格。。。我不确定如何将该数据保存在CSV文件中,除非单元格是如下所示的字符串:“1,2,3”、“1,4”、“1,2”。我有一个tsv选项卡分隔的文件,其中一列有逗号分隔的值。我添加了这个示例,但您可以假设数据只是一个数据帧。好的,谢谢,这更有意义。谢谢,这完全有意义,只是想知道我是否必须手动执行。