Hadoop 朴素贝叶斯MlLib分类中的准确率命中_Hadoop_Machine Learning_Bigdata_Mahout_Apache Spark Mllib

Hadoop 朴素贝叶斯MlLib分类中的准确率命中

hadoop machine-learning

Hadoop 朴素贝叶斯MlLib分类中的准确率命中,hadoop,machine-learning,bigdata,mahout,apache-spark-mllib,Hadoop,Machine Learning,Bigdata,Mahout,Apache Spark Mllib,我一直在使用Mahout的0.9 Naive Bayes算法对文档数据进行分类。对于一个特定的序列（2/3的数据）和测试（1/3的数据）集，我得到了86%的准确率。当我转到Spark的MLlib时，准确率下降到82%。在这两种情况下，均使用标准分析仪 MlLib链接： Mahout链接：请在这方面帮助我，因为我必须很快在生产系统中使用Spark，这对我来说是一个拦路虎我发现了一个问题，与Mahout相比，MlLib在数据分类方面花费了更多的时间有谁能帮我用MlLib朴素贝叶斯提高准确率呢

我一直在使用Mahout的0.9 Naive Bayes算法对文档数据进行分类。对于一个特定的序列（2/3的数据）和测试（1/3的数据）集，我得到了86%的准确率。当我转到Spark的MLlib时，准确率下降到82%。在这两种情况下，均使用标准分析仪

MlLib链接： Mahout链接：

请在这方面帮助我，因为我必须很快在生产系统中使用Spark，这对我来说是一个拦路虎

我发现了一个问题，与Mahout相比，MlLib在数据分类方面花费了更多的时间

有谁能帮我用MlLib朴素贝叶斯提高准确率呢

你确定这是一个苹果的比较吗？同样的标准化，先验知识，等等？也尝试这个数据集，NaiveBayes MlLib给出72%的准确率。我遵循下面给出的例子的所有步骤。它使用Lucene在我用来创建TFIDF向量的文档中查找相关术语。你能验证一下这是不是正确的方法吗。