Statistics 如何比较不同统计测试的结果?

Statistics 如何比较不同统计测试的结果?,statistics,regression,anova,t-test,statistical-test,Statistics,Regression,Anova,T Test,Statistical Test,我不知道这是不是一个好问题 这是一个例子,假设我有一个尺度/连续的因变量和一堆自变量。我的最终目标是建立一个模型,用这些自变量预测/估计因变量。我相信这是一个普通的环境 关键是我知道所有变量的物理意义,但我不知道它们之间的详细关系(甚至不知道是否相关)。我想更多地从分析/解释的角度构建一个模型,这样我就可以从模型中获得一些真实世界的见解,而不是一个黑箱 我的方法是尝试使用CHAID算法来构建决策树类型的模型。在每个分支上,我想对每个自变量进行统计测试,看看它和因变量之间是否有关系。然后,根据测试

我不知道这是不是一个好问题

这是一个例子,假设我有一个尺度/连续的因变量和一堆自变量。我的最终目标是建立一个模型,用这些自变量预测/估计因变量。我相信这是一个普通的环境

关键是我知道所有变量的物理意义,但我不知道它们之间的详细关系(甚至不知道是否相关)。我想更多地从分析/解释的角度构建一个模型,这样我就可以从模型中获得一些真实世界的见解,而不是一个黑箱

我的方法是尝试使用CHAID算法来构建决策树类型的模型。在每个分支上,我想对每个自变量进行统计测试,看看它和因变量之间是否有关系。然后,根据测试结果,我想选择最强大的一个来构建我的树

问题是,与CHAID算法不同,CHAID算法中大多数变量是分类变量,在我的例子中,因变量是尺度,自变量是分类变量或尺度,这意味着我可能需要对不同的变量进行不同的统计测试,例如,对分类变量进行t检验和方差分析,对连续变量进行回归。我想知道我应该如何公平地比较这些结果,以选择最强大的一个?(如CHAID中的校正步骤)


关于我计划的任何部分的任何想法对我来说都是非常重要的!谢谢

我建议您目视检查因变量与每个自变量的散点图,以确定是否可以看到任何明显的关系,如对数或指数形状。这通常很容易做到,有时会产生有益的结果。好的建议!我已经这样做了,并且观察了某些自变量的某些模式。但是自变量是高度相关的,所以我想我需要滑动数据以获得更多的见解,这回到我的问题,如何找到最重要的变量。这是一个有趣的问题,但它超出了so的范围;我认为stats.stackexchange.com更合适。这就是说,我怀疑在这种情况下使用显著性检验是没有意义的,因为有了足够的数据,几乎所有变量都有足够的相关性来通过显著性检验。我的建议是采用贝叶斯模型平均法。对它的web搜索应该可以找到一些资源。如果你愿意的话,我可以说更多,也许在你在stats.stackexchange.com上提问之后。谢谢,罗伯特!我已经把问题贴在那里了。我试过,发现简单线性回归这样的结果由于斜率很小,没有太多意义。现在,我正在考虑把连续的自变量组合起来,这样所有的测试都是相同的方差分析/卡方检验。我将阅读有关贝叶斯模型平均方法的内容。在进行组合步骤之前,贝叶斯模型平均似乎需要多个模型,而我正在尝试构建我的第一个模型。