多ARFF文件的WEKA预测
我对多ARFF文件的WEKA预测,r,machine-learning,weka,arff,R,Machine Learning,Weka,Arff,我对WEKA和ARFF文件相当陌生,目前正在使用它的GUI。我感到困惑的是,如何使用多个ARFF文件进行预测(分类) 例如,文件A有3个属性,“ID”,“attribute_1”,“attribute_2”;而文件B有两个属性,“ID”,“Scores”(用于预测的主属性) 问题是,文件A中的每一行数据都是唯一的,但是B中的数据是重复的。这两个文件都通过它们的“ID”进行关联。换句话说,文件B在文件a中为每个元素存储一组“分数” 对于如何将文件A和B连接在一起,有什么建议吗?或者有没有什么方法可
WEKA
和ARFF
文件相当陌生,目前正在使用它的GUI
。我感到困惑的是,如何使用多个ARFF
文件进行预测(分类)
例如,文件A有3个属性,“ID”
,“attribute_1”
,“attribute_2”
;而文件B有两个属性,“ID”
,“Scores”
(用于预测的主属性)
问题是,文件A
中的每一行数据都是唯一的,但是B
中的数据是重复的。这两个文件都通过它们的“ID”
进行关联。换句话说,文件B
在文件a
中为每个元素存储一组“分数”
对于如何将文件A
和B
连接在一起,有什么建议吗?或者有没有什么方法可以让我绕过WEKA
让它工作起来?WEKA需要一个“扁平化”的表,即arff
-文件。这个过程也称为非规范化。有一个weka包(反规范化),其中包含一个过滤器来执行此操作
这里有一个如何展平事务数据的示例:
在使用过滤器之前,您必须将两个文件合并在一起。如果您有csv
-文件或类似文件,您可以通过Excel实现这一点,例如,请参见: