Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率_Apache Spark_Random Forest_Logistic Regression_Apache Spark Mllib - Fatal编程技术网

Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率

Apache spark 如何在spark.mllib中获取分类模型中每个实例的概率,apache-spark,random-forest,logistic-regression,apache-spark-mllib,Apache Spark,Random Forest,Logistic Regression,Apache Spark Mllib,我使用spark.mllib.classification.{LogisticRegressionModel,logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包,我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中,我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢 在LogisticRegressionModel中,我们可以设置阈值。因此,我创建了一个函数,用于检查不同阈值上每个点的结果

我使用spark.mllib.classification.{LogisticRegressionModel,logisticRegressionWithGd}和spark.mllib.tree.RandomForest进行分类。使用这些包,我生成了分类模型。只有这些模型预测每个实例的特定类。在Weka中,我们可以得到每个实例属于每个类的确切概率。我们如何使用这些软件包呢


在LogisticRegressionModel中,我们可以设置阈值。因此,我创建了一个函数,用于检查不同阈值上每个点的结果。但是,对于RandomForest(请参见)

来说,这是无法做到的。不幸的是,在版本1.4.1之前,使用MLLIb无法获得分类模型的每个实例的概率

在我现在写答案的时候,有关于这个主题的JIRA问题(和)正在进行中。尽管如此,这一问题似乎自2014年11月以来一直被搁置

在预测过程中,目前还无法使用朴素贝叶斯模型获得预测的后验概率。这应与标签一起提供

下面是邮件列表中@sean owen关于Naive Bayes分类算法的类似主题的注释:

这是最近讨论的邮件列表。你现在不能直接得到概率,但是你可以稍微修改一下,得到NaiveBayesModel的内部数据结构,然后从中计算出来

参考文献:


主要编辑:此问题已通过Spark 1.5.0解决。有关更多详细信息,请参阅JIRA。

不幸的是,使用MLLIb,您无法获得分类模型的每个实例的概率。谢谢,您知道我们将来是否能够这样做吗?