Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率_Apache Spark_Random Forest_Logistic Regression_Apache Spark Mllib

Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率

apache-spark

Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率,apache-spark,random-forest,logistic-regression,apache-spark-mllib,Apache Spark,Random Forest,Logistic Regression,Apache Spark Mllib,我使用spark.mllib.classification.{LogisticRegressionModel，logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包，我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中，我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢在LogisticRegressionModel中，我们可以设置阈值。因此，我创建了一个函数，用于检查不同阈值上每个点的结果

我使用spark.mllib.classification.{LogisticRegressionModel，logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包，我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中，我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢

在LogisticRegressionModel中，我们可以设置阈值。因此，我创建了一个函数，用于检查不同阈值上每个点的结果。但是，对于RandomForest（请参见）

来说，这是无法做到的。不幸的是，在版本1.4.1之前，使用MLLIb无法获得分类模型的每个实例的概率

在我现在写答案的时候，有关于这个主题的JIRA问题（和）正在进行中。尽管如此，这一问题似乎自2014年11月以来一直被搁置

在预测过程中，目前还无法使用朴素贝叶斯模型获得预测的后验概率。这应与标签一起提供

下面是邮件列表中@sean owen关于Naive Bayes分类算法的类似主题的注释：

这是最近讨论的邮件列表。你现在不能直接得到概率，但是你可以稍微修改一下，得到NaiveBayesModel的内部数据结构，然后从中计算出来

参考文献：

主要编辑：此问题已通过Spark 1.5.0解决。有关更多详细信息，请参阅JIRA。

不幸的是，使用MLLIb，您无法获得分类模型的每个实例的概率。谢谢，您知道我们将来是否能够这样做吗？