R 观察两组之间是否存在差异:逻辑回归与t检验
为了发现两组之间的平均值是否存在差异,我们使用t检验,如下所示。我使用mtcars数据集R 观察两组之间是否存在差异:逻辑回归与t检验,r,statistics,regression,logistic-regression,hypothesis-test,R,Statistics,Regression,Logistic Regression,Hypothesis Test,为了发现两组之间的平均值是否存在差异,我们使用t检验,如下所示。我使用mtcars数据集 df<-mtcars %>% dplyr::select(hp, vs) t.test(hp~vs, data=df) Welch Two Sample t-test data: hp by vs t = 6.2908, df = 23.561, p-value = 1.82e-06 alternative hypothesis: true difference in means i
df<-mtcars %>% dplyr::select(hp, vs)
t.test(hp~vs, data=df)
Welch Two Sample t-test
data: hp by vs
t = 6.2908, df = 23.561, p-value = 1.82e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
66.06161 130.66854
sample estimates:
mean in group 0 mean in group 1
189.72222 91.35714
问题的可能重复:如何标记来自另一堆栈的重复?P值不同,因为它们对应不同的统计测试。T检验比较两组的平均值,回归(逻辑或线性)比较系数为零。然而,你应该选择一个更适合你的研究性质的,记住他们是你想要讲述你的故事的方式。然而,我要指出的是,一般来说,你试图找到的是“在
hp
和vs
之间的统计显著相关性”,你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型:t.test(hp~factor(vs),data=mtcars);总结(lm(hp~系数(vs),数据=mtcars));总结(glm(系数(vs)~hp,数据=mtcars,系列='二项式'))
。查看模型输出,思考您希望如何展示您的分析/发现,并选择最合适的一个…更进一步,您还可以使用决策树等非参数模型来研究相关性。试试这个:library(party);m1=ctree(hp~系数(vs),数据=mtcars);绘图(m1,type=“simple”);m2=ctree(系数(vs)~hp,数据=mtcars);绘图(m2,type=“simple”)
。到目前为止,我们所做的一切都表明,当hp
得到更高的值时,我们倾向于得到vs
=0;当hp
得到更低的值时,我们倾向于得到vs
=1。问题的可能重复:如何标记来自另一个堆栈的重复?P值不同,因为它们对应不同的统计数据测验。T检验比较两组的平均值,回归(逻辑或线性)比较系数为零。然而,你应该选择一个更适合你的研究性质的,记住他们是你想要讲述你的故事的方式。然而,我要指出的是,一般来说,你试图找到的是“在hp
和vs
之间的统计显著相关性”,你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型:t.test(hp~factor(vs),data=mtcars);总结(lm(hp~系数(vs),数据=mtcars));总结(glm(系数(vs)~hp,数据=mtcars,系列='二项式'))
。查看模型输出,思考您希望如何展示您的分析/发现,并选择最合适的一个…更进一步,您还可以使用决策树等非参数模型来研究相关性。试试这个:library(party);m1=ctree(hp~系数(vs),数据=mtcars);绘图(m1,type=“simple”);m2=ctree(系数(vs)~hp,数据=mtcars);绘图(m2,type=“simple”)
。到目前为止,我们所尝试的一切都表明,当hp
得到更高的值时,我们倾向于得到vs
=0;当hp
得到更低的值时,我们倾向于得到vs
=1。
summary(glm(vs~hp, data=df, family='binomial'))
Call:
glm(formula = vs ~ hp, family = "binomial", data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.12148 -0.20302 -0.01598 0.51173 1.20083
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 8.37802 3.21593 2.605 0.00918 **
hp -0.06856 0.02740 -2.502 0.01234 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 43.860 on 31 degrees of freedom
Residual deviance: 16.838 on 30 degrees of freedom
AIC: 20.838
Number of Fisher Scoring iterations: 7