描述分析与斜率估计的不匹配线性模型R

描述分析与斜率估计的不匹配线性模型R,r,modeling,lm,mismatch,R,Modeling,Lm,Mismatch,我是一个在R做模特的noob学生 我试图为我的数据集找到由n个重复行x m个变量列组成的最佳模型:我想构建一个lm来解释4个分类回归因子对Y(连续数据)植物芽数/平方米的影响 公式模型为:lm(Y~a+b+c+d) 回归因子水平:“a”有4个水平(阴影百分比等级),“b”有4个水平(4年调查),“c”有3个水平(海拔等级)和“d”有7个水平(7个空间多边形,在这些多边形中采集了枝条) 在描述性分析中,我观察到(用箱线图)所有回归变量水平的Y值都显著下降,特别是分类变量“a”:其水平称为“i”(1

我是一个在R做模特的noob学生

我试图为我的数据集找到由n个重复行x m个变量列组成的最佳模型:我想构建一个lm来解释4个分类回归因子对Y(连续数据)植物芽数/平方米的影响

公式模型为:lm(Y~a+b+c+d)

回归因子水平:“a”有4个水平(阴影百分比等级),“b”有4个水平(4年调查),“c”有3个水平(海拔等级)和“d”有7个水平(7个空间多边形,在这些多边形中采集了枝条)

在描述性分析中,我观察到(用箱线图)所有回归变量水平的Y值都显著下降,特别是分类变量“a”:其水平称为“i”(100%光)、“II”(60%)、“III”(30%)、“IV”(10%光),有350、250、150个100 Y中值

在总结模型中,我可以观察到每个回归器水平的Y值的预期影响,但“a”除外:该回归器的水平与Y呈相反的关系,具有显著的p值。这意味着,与I(包括在截距中)相比,II级、III+133级和IV+150级的估计斜率值为+69

诊断图符合残差正态分布和方差齐性

所以我的问题是,是否有这种影响,或者我应该以不同的方式阅读总结

提前感谢您的帮助


我将您的问题标记为迁移到交叉验证,因为这实际上更像是一个统计问题。希望你能得到更详细的答案

在任何情况下,导致不匹配的一个潜在原因是一个解释变量与另一个相关。这不会出现在你的诊断图中。相关变量“导致”汇总图中显示的密度降低。一旦你通过将其包含在回归中来消除这种影响,真正的影响就会表现为密度的增加


快速检查是对解释变量之间的关联进行一些测试。或者,您可以通过依次添加一个变量来评估线性模型,以查看添加特定解释变量后着色变量的符号是否发生变化。

如果您发布绘图和摘要输出,我们可以为您提供可靠的答案,而不是猜测。