Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何将数据集划分为训练集和测试集?_Java_Hadoop_Mapreduce_Classification_Data Mining - Fatal编程技术网

Java 如何将数据集划分为训练集和测试集?

Java 如何将数据集划分为训练集和测试集?,java,hadoop,mapreduce,classification,data-mining,Java,Hadoop,Mapreduce,Classification,Data Mining,我尝试使用朴素贝叶斯分类算法和map-reduce框架对数据集进行分类。 我的问题是如何将数据集划分为训练集和测试集,以计算更正和错误的ed分类实例的准确性?您可以使用RemovePercentage过滤器 训练集: 1.加载完整的数据集 2.在“预处理”面板中选择RemovePercentage过滤器 3.为拆分设置正确的百分比 4.应用过滤器 5.将生成的数据另存为新文件 测试集: 1.加载完整数据集(或仅使用“撤消”将更改还原到数据集) 2.如果尚未选择,请选择RemovePercenta

我尝试使用朴素贝叶斯分类算法和map-reduce框架对数据集进行分类。
我的问题是如何将数据集划分为训练集和测试集,以计算更正和错误的ed分类实例的准确性?

您可以使用
RemovePercentage
过滤器 训练集: 1.加载完整的数据集 2.在“预处理”面板中选择RemovePercentage过滤器 3.为拆分设置正确的百分比 4.应用过滤器 5.将生成的数据另存为新文件

测试集: 1.加载完整数据集(或仅使用“撤消”将更改还原到数据集) 2.如果尚未选择,请选择RemovePercentage过滤器 3.将invertSelection属性设置为true 4.应用过滤器
5.将生成的数据另存为新文件

数据集约为1GA,weka不提供大数据任何帮助?@medooSa我建议使用R编程,如果您想要GUI界面,最好是RStudio。学习R的一个很好的在线资源是R-bloggers。然而,与PCA或k-均值相比。。。如果在R中执行相同操作,则所需时间不到5分钟。(我已经在效率方面对此进行了测试)除了R之外,您的其他选择是RapidMiner或Apache Hadhoop。。。然而,在我看来,weka是最好的大数据。。。我建议您看看gate,我已经使用eclipse编写了一个编译的java.jar文件。这是否允许R编程导入.jar文件并处理它,或者我应该使用R编程编写所有代码?@medooSa您必须使用R包包含它,使您的结构类似于
inst java jarFileHere.jar R_code_file.R
还可以看看和。Devertier的web手册上提供了一个关于在包中包含java代码的教程:是的,我会阅读并尝试…感谢您的努力:您考虑过使用随机抽样吗?