Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何利用“ml_logistic_回归”得到logistic回归系数的显著性`_R_Apache Spark_Logistic Regression_Sparklyr - Fatal编程技术网

R 如何利用“ml_logistic_回归”得到logistic回归系数的显著性`

R 如何利用“ml_logistic_回归”得到logistic回归系数的显著性`,r,apache-spark,logistic-regression,sparklyr,R,Apache Spark,Logistic Regression,Sparklyr,我想知道使用spark函数的logistic回归模型的每个系数的重要性ml\u logistic\u回归。代码如下: # data in R library(MASS) data(birthwt) str(birthwt) detach("package:MASS", unload=TRUE) # Connection to Spark library(sparklyr) library(dplyr) sc = spark_connect(master = "local") # copy

我想知道使用spark函数的logistic回归模型的每个系数的重要性
ml\u logistic\u回归
。代码如下:

# data in R
library(MASS)
data(birthwt) 
str(birthwt)
detach("package:MASS", unload=TRUE)

# Connection to Spark
library(sparklyr)
library(dplyr)
sc = spark_connect(master = "local")

# copy the data to Spark
birth_sc = copy_to(sc, birthwt, "birth_sc", overwrite = TRUE)

# Model
# create dummy variables for race (race_1, race_2, race_3)
birth_sc = ml_create_dummy_variables(birth_sc, "race")
model = ml_logistic_regression(birth_sc, low ~ lwt + race_2 + race_3)
我得到的模型如下:

> model
Call: low ~ lwt + race_2 + race_3

Coefficients:
(Intercept)         lwt      race_2      race_3 
 0.80575496 -0.01522311  1.08106617  0.48060322 
在R模型中,你使用了
摘要
,它给出了系数的重要性,但如果我将其与此模型一起使用,我会得到相同的结果:

> summary(model)
Call: ml_logistic_regression(birth_sc, low ~ lwt + race_2 + race_3)

Coefficients:
  (Intercept)         lwt      race_2      race_3 
0.80575496 -0.01522311  1.08106617  0.48060322 

如何获得模型中每个变量的显著性?

你就是不知道。Spark的
LogisticRegressionSummary
变体中没有一个提供功能重要性,因此不能(也不能)由提供

您可以使用广义线性模型,其中族==“二项式”。有关更多信息,请参阅和Spark参考:

查看模型对象的结构(
str(Model)
),它看起来不像
ml\u logistic\u回归
返回任何与显著性水平、置信区间或方差协方差矩阵相关的信息,因此我不确定这是否可行。另一方面,在机器学习中,通常试图最大化预测性能,统计意义通常并不重要。相反,使用交叉验证,根据某些性能标准(如ROC曲线下的面积)选择最佳模型。@eipi10我尝试在Spark中手动计算方差-协方差矩阵,但我达到了需要计算矩阵逆的程度,但我不知道如何在Spark
solve(m)中计算它
将返回矩阵的倒数
m
。似乎很有希望,但您能否确认此对象(与逻辑回归对象不同)确实包含将恢复p值的信息?虽然这个链接可以回答这个问题,但最好在这里包含答案的基本部分,并提供链接供参考。如果链接页面发生更改,则仅链接的答案可能无效-