Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率
我使用spark.mllib.classification.{LogisticRegressionModel,logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包,我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中,我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率,apache-spark,random-forest,logistic-regression,apache-spark-mllib,Apache Spark,Random Forest,Logistic Regression,Apache Spark Mllib,我使用spark.mllib.classification.{LogisticRegressionModel,logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包,我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中,我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢 在LogisticRegressionModel中,我们可以设置阈值。因此,我创建了一个函数,用于检查不同阈值上每个点的结果
在LogisticRegressionModel中,我们可以设置阈值。因此,我创建了一个函数,用于检查不同阈值上每个点的结果。但是,对于RandomForest(请参见)来说,这是无法做到的。不幸的是,在版本1.4.1之前,使用MLLIb无法获得分类模型的每个实例的概率 在我现在写答案的时候,有关于这个主题的JIRA问题(和)正在进行中。尽管如此,这一问题似乎自2014年11月以来一直被搁置 在预测过程中,目前还无法使用朴素贝叶斯模型获得预测的后验概率。这应与标签一起提供 下面是邮件列表中@sean owen关于Naive Bayes分类算法的类似主题的注释: 这是最近讨论的邮件列表。你现在不能直接得到概率,但是你可以稍微修改一下,得到NaiveBayesModel的内部数据结构,然后从中计算出来 参考文献:
主要编辑:此问题已通过Spark 1.5.0解决。有关更多详细信息,请参阅JIRA。不幸的是,使用MLLIb,您无法获得分类模型的每个实例的概率。谢谢,您知道我们将来是否能够这样做吗?