R 观察两组之间是否存在差异:逻辑回归与t检验

R 观察两组之间是否存在差异:逻辑回归与t检验,r,statistics,regression,logistic-regression,hypothesis-test,R,Statistics,Regression,Logistic Regression,Hypothesis Test,为了发现两组之间的平均值是否存在差异,我们使用t检验,如下所示。我使用mtcars数据集 df<-mtcars %>% dplyr::select(hp, vs) t.test(hp~vs, data=df) Welch Two Sample t-test data: hp by vs t = 6.2908, df = 23.561, p-value = 1.82e-06 alternative hypothesis: true difference in means i

为了发现两组之间的平均值是否存在差异,我们使用t检验,如下所示。我使用mtcars数据集

df<-mtcars %>% dplyr::select(hp, vs)
t.test(hp~vs, data=df)
    Welch Two Sample t-test

data:  hp by vs
t = 6.2908, df = 23.561, p-value = 1.82e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  66.06161 130.66854
sample estimates:
mean in group 0 mean in group 1 
      189.72222        91.35714 

问题的可能重复:如何标记来自另一堆栈的重复?P值不同,因为它们对应不同的统计测试。T检验比较两组的平均值,回归(逻辑或线性)比较系数为零。然而,你应该选择一个更适合你的研究性质的,记住他们是你想要讲述你的故事的方式。然而,我要指出的是,一般来说,你试图找到的是“在
hp
vs
之间的统计显著相关性”,你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型:
t.test(hp~factor(vs),data=mtcars);总结(lm(hp~系数(vs),数据=mtcars));总结(glm(系数(vs)~hp,数据=mtcars,系列='二项式'))
。查看模型输出,思考您希望如何展示您的分析/发现,并选择最合适的一个…更进一步,您还可以使用决策树等非参数模型来研究相关性。试试这个:
library(party);m1=ctree(hp~系数(vs),数据=mtcars);绘图(m1,type=“simple”);m2=ctree(系数(vs)~hp,数据=mtcars);绘图(m2,type=“simple”)
。到目前为止,我们所做的一切都表明,当
hp
得到更高的值时,我们倾向于得到
vs
=0;当
hp
得到更低的值时,我们倾向于得到
vs
=1。问题的可能重复:如何标记来自另一个堆栈的重复?P值不同,因为它们对应不同的统计数据测验。T检验比较两组的平均值,回归(逻辑或线性)比较系数为零。然而,你应该选择一个更适合你的研究性质的,记住他们是你想要讲述你的故事的方式。然而,我要指出的是,一般来说,你试图找到的是“在
hp
vs
之间的统计显著相关性”,你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型:
t.test(hp~factor(vs),data=mtcars);总结(lm(hp~系数(vs),数据=mtcars));总结(glm(系数(vs)~hp,数据=mtcars,系列='二项式'))
。查看模型输出,思考您希望如何展示您的分析/发现,并选择最合适的一个…更进一步,您还可以使用决策树等非参数模型来研究相关性。试试这个:
library(party);m1=ctree(hp~系数(vs),数据=mtcars);绘图(m1,type=“simple”);m2=ctree(系数(vs)~hp,数据=mtcars);绘图(m2,type=“simple”)
。到目前为止,我们所尝试的一切都表明,当
hp
得到更高的值时,我们倾向于得到
vs
=0;当
hp
得到更低的值时,我们倾向于得到
vs
=1。
summary(glm(vs~hp, data=df, family='binomial'))
Call:
glm(formula = vs ~ hp, family = "binomial", data = df)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.12148  -0.20302  -0.01598   0.51173   1.20083  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  8.37802    3.21593   2.605  0.00918 **
hp          -0.06856    0.02740  -2.502  0.01234 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.860  on 31  degrees of freedom
Residual deviance: 16.838  on 30  degrees of freedom
AIC: 20.838

Number of Fisher Scoring iterations: 7