Apache spark 如何计算Spark'中的p值;什么是逻辑回归?

Apache spark 如何计算Spark'中的p值;什么是逻辑回归?,apache-spark,apache-spark-mllib,data-science,Apache Spark,Apache Spark Mllib,Data Science,我们正在使用LogisticRegressionWithGD,并希望找出哪些变量可以预测以及具有什么意义。一些统计数据包(StatsModels)为每个术语返回p值。低p值(

我们正在使用LogisticRegressionWithGD,并希望找出哪些变量可以预测以及具有什么意义。一些统计数据包(StatsModels)为每个术语返回p值。低p值(<0.05)表示模型中有意义的添加

我们如何使用GD模型从Logistic回归中获得/计算p值


非常感谢您的帮助。

这是一个非常古老的问题,但为迟到的人提供一些指导可能很有价值

与GD的逻辑回归是。在该版本中,模型本身没有提供真正的“摘要”信息集。如果您无法访问pyspark的最新版本,则必须自己计算每个功能的P值

如果您可以获取pyspark的当前版本,则您需要使用:
pyspark.mllib.classification.LogisticRegressionWithLBFGS

(docs)

但是你想计算什么的p值?每个特征的p值测试系数等于零的无效假设(没有影响)。这属于stats.stackexchange.com,你不认为@eliasah吗?伊戈尔,提示:@zero323我不确定这是纯技术还是理论。现在还不清楚在这种情况下OP的模型是什么意思。@eliasah这是技术性的。可以分析模型(逻辑)的结果。。例如,返回每个特性的p值“手动”链接不好,因为它显示了如何计算正常数据的p值。