当两个模型之间的方差分析不';t在R中产生p值?

当两个模型之间的方差分析不';t在R中产生p值?,r,linear-regression,anova,model-comparison,R,Linear Regression,Anova,Model Comparison,我有两个小数据集: infected.data.r.p <- structure(list(MLH = c(0.520408163265306, 0.436170212765957, 0.344086021505376, 0.423076923076923, 0.406976744186047), ColGrowthCL_6 = c(5.923728814, 0.283950617, 0.377358491, 1.728070175, 0.2)), .Names = c("MLH",

我有两个小数据集:

infected.data.r.p <- structure(list(MLH = c(0.520408163265306, 0.436170212765957, 
0.344086021505376, 0.423076923076923, 0.406976744186047), ColGrowthCL_6 = c(5.923728814, 
0.283950617, 0.377358491, 1.728070175, 0.2)), .Names = c("MLH", 
"ColGrowthCL_6"), row.names = c("12", "22", "28", "30", "34"), class = "data.frame")


infected.data.r.p我相信您只能比较来自同一数据集的模型。因此,当使用卡方比较两个(嵌套)模型时,它需要来自同一个数据集-这可能就是为什么没有计算p值的原因。

我相信您只能比较来自同一数据集的模型。因此,当使用卡方检验比较两个(嵌套)模型时,它需要来自同一个数据集-也许这就是为什么没有计算p值的原因。

为了澄清,第二个数据集是从较大的数据集中随机抽取的,因此它将具有与第一个数据集相同的样本大小。稍后我会重复这个过程很多次,但我想先解决这个试运行的问题。从统计学上讲,你试图做的并没有什么意义。至少,如果你试图通过方差分析进行比较,那么你的得分(见下文)。如果不是方差分析,有什么建议吗?我想另一种思考方式是,我想知道从较大的数据集中随机抽取的五个样本是否会导致我在较小的数据集中看到的回归系数类型(超过5%的时间)。我想我可以通过排列测试从经验上找到答案…你到底想做什么?你试图回答的问题我不清楚。我希望你不介意-我从你的数据中删除了一堆填充屏幕的无用内容…为了澄清,第二个数据集是从一个更大的数据集中随机抽取的,因此它将具有与第一个数据集相同的样本大小。稍后我会重复这个过程很多次,但我想先解决这个试运行的问题。从统计学上讲,你试图做的并没有什么意义。至少,如果你试图通过方差分析进行比较,那么你的得分(见下文)。如果不是方差分析,有什么建议吗?我想另一种思考方式是,我想知道从较大的数据集中随机抽取的五个样本是否会导致我在较小的数据集中看到的回归系数类型(超过5%的时间)。我想我可以通过排列测试从经验上找到答案…你到底想做什么?你想回答的问题我不清楚。我希望你不介意-我从你的数据中删除了一堆无用的东西,这些数据充斥着屏幕…啊,当然。说得好!在这种情况下,您是否知道我可以比较这些模型的方法?它们最终是从同一个数据集中提取的,但在样本方面永远不会重叠……我不知道有什么方法可以做你想做的事情。您可以将原始数据集分成两个级别的两个因素(已感染和未感染)?我也不相信Poisson链接在这里是合适的,因为它通常用于计数数据,而您的响应不是。您可以尝试引导您的模型,以获得95%的系数CI,并查看它们是否重叠但在统计上不可靠。再次感谢,@hgeop!实际上,我也一直在努力研究泊松连接函数。我选择泊松是因为一些较低的值非常常见,而较高的值则不常见。分布既不是显著正态分布也不是泊松分布,我不知道该怎么办…泊松分布没有任何意义,因为它实际上只接受整数的值。看,伙计,我在这里瞎了。这些统计书非常令人困惑。我特别选择GLM,因为它们适应非正态分布。如果我的发行版不是其他发行版,你有什么建议吗?当然有。说得好!在这种情况下,您是否知道我可以比较这些模型的方法?它们最终是从同一个数据集中提取的,但在样本方面永远不会重叠……我不知道有什么方法可以做你想做的事情。您可以将原始数据集分成两个级别的两个因素(已感染和未感染)?我也不相信Poisson链接在这里是合适的,因为它通常用于计数数据,而您的响应不是。您可以尝试引导您的模型,以获得95%的系数CI,并查看它们是否重叠但在统计上不可靠。再次感谢,@hgeop!实际上,我也一直在努力研究泊松连接函数。我选择泊松是因为一些较低的值非常常见,而较高的值则不常见。分布既不是显著正态分布也不是泊松分布,我不知道该怎么办…泊松分布没有任何意义,因为它实际上只接受整数的值。看,伙计,我在这里瞎了。这些统计书非常令人困惑。我特别选择GLM,因为它们适应非正态分布。如果我的发行版似乎不是其他发行版,有什么建议吗?
uninfected.sampling <- structure(list(MLH = c(0.524271844660194, 0.457446808510638, 
0.354838709677419, 0.398058252427184, 0.436893203883495), ColGrowthCL_6 = c(4.401639344, 
4.827586207, 6.387096774, 6.320754717, 4.225490196)), .Names = c("MLH", 
"ColGrowthCL_6"), row.names = c("218", "18", "21", "212", "99"
), class = "data.frame")
infected.model<-glm(formula=as.formula(ColGrowthCL_6~MLH), family=poisson, infected.data.r.p)
uninfected.model<-glm(formula=as.formula(ColGrowthCL_6~MLH), family=poisson, uninfected.sampling)    

compare<-anova(infected.model,uninfected.model,test="Chisq")
print(compare)
summary(compare)