R 观察两组之间是否存在差异：逻辑回归与t检验_R_Statistics_Regression_Logistic Regression_Hypothesis Test

R 观察两组之间是否存在差异：逻辑回归与t检验

r statistics

R 观察两组之间是否存在差异：逻辑回归与t检验,r,statistics,regression,logistic-regression,hypothesis-test,R,Statistics,Regression,Logistic Regression,Hypothesis Test,为了发现两组之间的平均值是否存在差异，我们使用t检验，如下所示。我使用mtcars数据集 df<-mtcars %>% dplyr::select(hp, vs) t.test(hp~vs, data=df) Welch Two Sample t-test data: hp by vs t = 6.2908, df = 23.561, p-value = 1.82e-06 alternative hypothesis: true difference in means i

为了发现两组之间的平均值是否存在差异，我们使用t检验，如下所示。我使用mtcars数据集

df<-mtcars %>% dplyr::select(hp, vs)
t.test(hp~vs, data=df)
    Welch Two Sample t-test

data:  hp by vs
t = 6.2908, df = 23.561, p-value = 1.82e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  66.06161 130.66854
sample estimates:
mean in group 0 mean in group 1 
      189.72222        91.35714

问题的可能重复：如何标记来自另一堆栈的重复？P值不同，因为它们对应不同的统计测试。T检验比较两组的平均值，回归（逻辑或线性）比较系数为零。然而，你应该选择一个更适合你的研究性质的，记住他们是你想要讲述你的故事的方式。然而，我要指出的是，一般来说，你试图找到的是“在

hp

和

vs

之间的统计显著相关性”，你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型：

t.test（hp~factor（vs），data=mtcars）；总结（lm（hp~系数（vs），数据=mtcars））；总结（glm（系数（vs）~hp，数据=mtcars，系列='二项式'））

。查看模型输出，思考您希望如何展示您的分析/发现，并选择最合适的一个…更进一步，您还可以使用决策树等非参数模型来研究相关性。试试这个：

library（party）；m1=ctree（hp~系数（vs），数据=mtcars）；绘图（m1，type=“simple”）；m2=ctree（系数（vs）~hp，数据=mtcars）；绘图（m2，type=“simple”）

。到目前为止，我们所做的一切都表明，当

hp

得到更高的值时，我们倾向于得到

vs

=0；当

hp

得到更低的值时，我们倾向于得到

vs

=1。问题的可能重复：如何标记来自另一个堆栈的重复？P值不同，因为它们对应不同的统计数据测验。T检验比较两组的平均值，回归（逻辑或线性）比较系数为零。然而，你应该选择一个更适合你的研究性质的，记住他们是你想要讲述你的故事的方式。然而，我要指出的是，一般来说，你试图找到的是“在

hp

和

vs

之间的统计显著相关性”，你可以通过多种方式做到这一点……我在你尝试的基础上添加了一个线性回归模型：

t.test（hp~factor（vs），data=mtcars）；总结（lm（hp~系数（vs），数据=mtcars））；总结（glm（系数（vs）~hp，数据=mtcars，系列='二项式'））

。查看模型输出，思考您希望如何展示您的分析/发现，并选择最合适的一个…更进一步，您还可以使用决策树等非参数模型来研究相关性。试试这个：

library（party）；m1=ctree（hp~系数（vs），数据=mtcars）；绘图（m1，type=“simple”）；m2=ctree（系数（vs）~hp，数据=mtcars）；绘图（m2，type=“simple”）

。到目前为止，我们所尝试的一切都表明，当

hp

得到更高的值时，我们倾向于得到

vs

=0；当

hp

得到更低的值时，我们倾向于得到

vs

=1。

summary(glm(vs~hp, data=df, family='binomial'))
Call:
glm(formula = vs ~ hp, family = "binomial", data = df)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.12148  -0.20302  -0.01598   0.51173   1.20083  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  8.37802    3.21593   2.605  0.00918 **
hp          -0.06856    0.02740  -2.502  0.01234 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43.860  on 31  degrees of freedom
Residual deviance: 16.838  on 30  degrees of freedom
AIC: 20.838

Number of Fisher Scoring iterations: 7