R 线性回归中的分类变量:只有一个值的一个级别,其余为NA

R 线性回归中的分类变量:只有一个值的一个级别,其余为NA,r,linear-regression,R,Linear Regression,我要问一个理论问题,关于运行模型摘要时R是如何工作的。我正在做一些线性回归模型,其中两个变量是分类的,每个变量有3个水平,对应的基因型。我知道模型摘要中只会显示其中两个级别,因为其中一个级别必须作为参考。然而,我的这些变量对于其中一个级别只有一个计数,如: 变量1水平:TT 176个计数/TC 45个计数/CC 1个计数(223个个体中的这一个基因型) 现在,这个CC级别通常不会出现在模型摘要中,我假设这是因为,因为只有1,R没有考虑它。我所需要的就是找到一个文献来证实或否定我的假设。我一直在尝

我要问一个理论问题,关于运行模型摘要时R是如何工作的。我正在做一些线性回归模型,其中两个变量是分类的,每个变量有3个水平,对应的基因型。我知道模型摘要中只会显示其中两个级别,因为其中一个级别必须作为参考。然而,我的这些变量对于其中一个级别只有一个计数,如:

变量1水平:TT 176个计数/TC 45个计数/CC 1个计数(223个个体中的这一个基因型)

现在,这个CC级别通常不会出现在模型摘要中,我假设这是因为,因为只有1,R没有考虑它。我所需要的就是找到一个文献来证实或否定我的假设。我一直在尝试用不同的方式在谷歌上搜索它,并通过R
?help
进行
lm
和其他相关搜索,但要么我没有找到我要找的内容,要么我已经并且没有理解它本身


任何帮助都将不胜感激

你的假设是错误的

第一级为参考级,默认顺序为字母顺序。因为CC按字母顺序排在第一位,所以它是模型中的参考级别

使用一个相对通用的值作为参考水平是一种良好的做法(减少其他估计值的差异)。因此,我建议修改字母顺序默认值,使
TT
成为参考级别。这应该很容易

your_data$var = relevel(your_data$var, ref = "TT")
(当然,替换数据帧和变量名)

水平设置的方式称为“对比度”<代码>?对比是一个开始阅读的好地方,使用该搜索词,您应该能够找到其他文档/参考资料。(除了“将所有内容与参考级别进行比较”之外,还有其他选项,但这超出了此处的范围。)


类似地,包含一个只有一个观察值的级别听起来很可疑,但这是一个统计问题,而不是一个编程问题(需要比您的问题更多的信息),因此我在这里不再进一步讨论。

这些级别是否有自然的顺序?如果不是,我认为回归将过度适合变量1中的CC水平。这个系数只基于一个观察值,而回归是基于包含“许多”观察值来说明平均行为的想法,这正是我所想的。但我需要能够100%肯定地说,这确实是正在发生的事情,这就是为什么我要寻找这种现象的文献来源(我正在准备一篇论文,所以在解释我的结果时,我必须准备好可靠的来源来支持我的推理)。第一次与R合作!嘿,格雷戈!我不断地改变这些变量的参考水平,因为我试图分析不同基因型的估计值),所以我认为这不是问题所在。无论引用是什么,CC都不会出现在模型摘要中。不过,现在我会仔细研究对比,谢谢你的提示。还有其他建议吗?:)谢谢也许,在其他变量中,CC具有奇点。建模调用是否产生警告?此外,“不断改变参考水平”听起来没有必要,但同样,在这里讨论这个问题听起来也不太合适。如果您能在stats.stackexchange.Hey上提供关于新问题的更多详细信息,可能会更幸运!没有警告。关于“持续”,我想这只是一个比喻,我正在移动参考水平,现在我试图分析每个基因型是如何影响我的因变量的。不管怎样,我正在考虑在分析中完全去除CC水平,因为可以合理地说,我不能从一个观察中得出任何可靠的结论。那么我来看看stats.stackexchange。再次感谢!如果你独立地估计效果,而不是相互比较,那么也许只需忽略CC,然后拟合一个没有截距的模型。