R 线性回归中的分类变量：只有一个值的一个级别，其余为NA_R_Linear Regression

R 线性回归中的分类变量：只有一个值的一个级别，其余为NA

R 线性回归中的分类变量：只有一个值的一个级别，其余为NA,r,linear-regression,R,Linear Regression,我要问一个理论问题，关于运行模型摘要时R是如何工作的。我正在做一些线性回归模型，其中两个变量是分类的，每个变量有3个水平，对应的基因型。我知道模型摘要中只会显示其中两个级别，因为其中一个级别必须作为参考。然而，我的这些变量对于其中一个级别只有一个计数，如：变量1水平：TT 176个计数/TC 45个计数/CC 1个计数（223个个体中的这一个基因型）现在，这个CC级别通常不会出现在模型摘要中，我假设这是因为，因为只有1，R没有考虑它。我所需要的就是找到一个文献来证实或否定我的假设。我一直在尝

我要问一个理论问题，关于运行模型摘要时R是如何工作的。我正在做一些线性回归模型，其中两个变量是分类的，每个变量有3个水平，对应的基因型。我知道模型摘要中只会显示其中两个级别，因为其中一个级别必须作为参考。然而，我的这些变量对于其中一个级别只有一个计数，如：

变量1水平：TT 176个计数/TC 45个计数/CC 1个计数（223个个体中的这一个基因型）

现在，这个CC级别通常不会出现在模型摘要中，我假设这是因为，因为只有1，R没有考虑它。我所需要的就是找到一个文献来证实或否定我的假设。我一直在尝试用不同的方式在谷歌上搜索它，并通过R

？help

进行

lm

和其他相关搜索，但要么我没有找到我要找的内容，要么我已经并且没有理解它本身

任何帮助都将不胜感激

你的假设是错误的

第一级为参考级，默认顺序为字母顺序。因为CC按字母顺序排在第一位，所以它是模型中的参考级别

使用一个相对通用的值作为参考水平是一种良好的做法（减少其他估计值的差异）。因此，我建议修改字母顺序默认值，使

TT

成为参考级别。这应该很容易

your_data$var = relevel(your_data$var, ref = "TT")

（当然，替换数据帧和变量名）

水平设置的方式称为“对比度”<代码>？对比是一个开始阅读的好地方，使用该搜索词，您应该能够找到其他文档/参考资料。（除了“将所有内容与参考级别进行比较”之外，还有其他选项，但这超出了此处的范围。）

类似地，包含一个只有一个观察值的级别听起来很可疑，但这是一个统计问题，而不是一个编程问题（需要比您的问题更多的信息），因此我在这里不再进一步讨论。

这些级别是否有自然的顺序？如果不是，我认为回归将过度适合变量1中的CC水平。这个系数只基于一个观察值，而回归是基于包含“许多”观察值来说明平均行为的想法，这正是我所想的。但我需要能够100%肯定地说，这确实是正在发生的事情，这就是为什么我要寻找这种现象的文献来源（我正在准备一篇论文，所以在解释我的结果时，我必须准备好可靠的来源来支持我的推理）。第一次与R合作！嘿，格雷戈！我不断地改变这些变量的参考水平，因为我试图分析不同基因型的估计值），所以我认为这不是问题所在。无论引用是什么，CC都不会出现在模型摘要中。不过，现在我会仔细研究对比，谢谢你的提示。还有其他建议吗？：）谢谢也许，在其他变量中，CC具有奇点。建模调用是否产生警告？此外，“不断改变参考水平”听起来没有必要，但同样，在这里讨论这个问题听起来也不太合适。如果您能在stats.stackexchange.Hey上提供关于新问题的更多详细信息，可能会更幸运！没有警告。关于“持续”，我想这只是一个比喻，我正在移动参考水平，现在我试图分析每个基因型是如何影响我的因变量的。不管怎样，我正在考虑在分析中完全去除CC水平，因为可以合理地说，我不能从一个观察中得出任何可靠的结论。那么我来看看stats.stackexchange。再次感谢！如果你独立地估计效果，而不是相互比较，那么也许只需忽略CC，然后拟合一个没有截距的模型。