Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 朴素贝叶斯MlLib分类中的准确率命中_Hadoop_Machine Learning_Bigdata_Mahout_Apache Spark Mllib - Fatal编程技术网

Hadoop 朴素贝叶斯MlLib分类中的准确率命中

Hadoop 朴素贝叶斯MlLib分类中的准确率命中,hadoop,machine-learning,bigdata,mahout,apache-spark-mllib,Hadoop,Machine Learning,Bigdata,Mahout,Apache Spark Mllib,我一直在使用Mahout的0.9 Naive Bayes算法对文档数据进行分类。对于一个特定的序列(2/3的数据)和测试(1/3的数据)集,我得到了86%的准确率。当我转到Spark的MLlib时,准确率下降到82%。在这两种情况下,均使用标准分析仪 MlLib链接: Mahout链接: 请在这方面帮助我,因为我必须很快在生产系统中使用Spark,这对我来说是一个拦路虎 我发现了一个问题,与Mahout相比,MlLib在数据分类方面花费了更多的时间 有谁能帮我用MlLib朴素贝叶斯提高准确率呢

我一直在使用Mahout的0.9 Naive Bayes算法对文档数据进行分类。对于一个特定的序列(2/3的数据)和测试(1/3的数据)集,我得到了86%的准确率。当我转到Spark的MLlib时,准确率下降到82%。在这两种情况下,均使用标准分析仪

MlLib链接: Mahout链接:

请在这方面帮助我,因为我必须很快在生产系统中使用Spark,这对我来说是一个拦路虎

我发现了一个问题,与Mahout相比,MlLib在数据分类方面花费了更多的时间


有谁能帮我用MlLib朴素贝叶斯提高准确率呢

你确定这是一个苹果的比较吗?同样的标准化,先验知识,等等?也尝试这个数据集,NaiveBayes MlLib给出72%的准确率。我遵循下面给出的例子的所有步骤。它使用Lucene在我用来创建TFIDF向量的文档中查找相关术语。你能验证一下这是不是正确的方法吗。