在R中绘制lme模型(带多项式)的预测值
我使用的是线性混合效应模型(与R中nlme包中的在R中绘制lme模型(带多项式)的预测值,r,predict,mixed-models,polynomials,nlme,R,Predict,Mixed Models,Polynomials,Nlme,我使用的是线性混合效应模型(与R中nlme包中的lme()函数一起运行),该模型具有一个固定效应和一个随机截距项(用于解释不同的组)。该模型为三次多项式模型,具体如下(建议如下): 仅一些示例数据: > dput(dat) structure(list(group = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L
lme()
函数一起运行),该模型具有一个固定效应和一个随机截距项(用于解释不同的组)。该模型为三次多项式模型,具体如下(建议如下):
仅一些示例数据:
> dput(dat)
structure(list(group = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("1",
"2"), class = "factor"), iv = c(24L, 100L, 110L, 115L, 116L,
120L, 125L, 127L, 138L, 139L, 142L, 150L, 152L, 154L, 157L, 161L,
168L, 177L, 181L, 189L, 190L, 198L, 200L, 213L, 216L, 225L, 254L,
284L, 40L, 51L, 76L, 130L, 155L, 158L, 160L, 163L, 167L, 169L,
170L, 177L, 185L, 190L, 203L, 206L, 208L, 219L, 223L, 233L, 238L,
244L, 251L, 260L, 265L), dv = c(0L, 8L, 6L, 8L, 10L, 10L, 9L,
11L, 12L, 15L, 16L, 19L, 13L, 10L, 17L, 22L, 18L, 22L, 25L, 20L,
27L, 28L, 29L, 30L, 29L, 30L, 30L, 30L, 0L, 0L, 2L, 7L, 14L,
12L, 17L, 10L, 14L, 13L, 16L, 15L, 17L, 21L, 25L, 20L, 26L, 27L,
28L, 29L, 30L, 30L, 30L, 30L, 30L)), .Names = c("group", "iv",
"dv"), row.names = c(NA, -53L), class = "data.frame")
现在,我想使用predict
函数绘制拟合值(iv的值在数据集中不是连续的,因此我想改善拟合曲线的外观/平滑度)
通过在线示例说明如何绘制简单lme模型(不含多项式)的预测值(参见此处:和),我可以使用以下代码绘制不含多项式的lme的预测“总体”均值:
#model without polynomials
dat$group = factor(dat$group)
M2 = lme(dv ~ iv, data=dat, random= ~1|group, method="REML")
#1.create new data frame with new values for predictors (where groups aren't accounted for)
range(dat$iv)
new.dat = data.frame(iv = seq(from =24, to =284, by=1))
#2. predict the mean population response
new.dat$pred = predict(M2, newdata=new.dat, level=0)
#3. create a design matrix
Designmat <- model.matrix(eval(eval(M2$call$fixed)[-2]), new.dat[-ncol(new.dat)])
#4. get standard error and CI for predictions
predvar <- diag(Designmat %*% M2$varFix %*% t(Designmat))
new.dat$SE <- sqrt(predvar)
new.dat$SE2 <- sqrt(predvar+M2$sigma^2)
# Create plot with different colours for grouping levels and plot predicted values for population mean
G1 = dat[dat$group==1, ]
G2 = dat[dat$group==2, ]
plot(G1$iv, G1$dv, xlab="iv", ylab="dv", ylim=c(0,30), xlim=c(0,350), pch=16, col=2)
points(G2$iv, G2$dv, xlab="", ylab="", ylim=c(0,30), xlim=c(0,350), pch=16, col=3)
F0 = new.dat$pred
I = order(new.dat$iv); eff = sort(new.dat$iv)
lines(eff, F0[I], lwd=2, type="l", ylab="", xlab="", col=1, xlim=c(0,30))
#lines(eff, F0[I] + 2 * new.dat$SE[I], lty = 2)
#lines(eff, F0[I] - 2 * new.dat$SE[I], lty = 2)
此外,如果您希望预测的值的数量大于原始iv值的数量(例如,在数据不规则的情况下),则这不起作用。由于行数不同,下面的代码显然不起作用,但我正在努力解决语法问题
new.dat = data.frame(iv = seq(from =24, to =284, by=1), group=rep(c("1","2"),c(28,25)))
对于多项式模型:我不明白如何将poly(iv,3)合并到一个新的.dat数据帧中,以输入预测函数
对于如何实现这两个目标的任何建议,我都将不胜感激,因为我一直在毫无乐趣地尝试解决这个问题(如果可能的话,我宁愿使用基本图形而不是ggplot)。谢谢 让我更详细地解释一下,为什么我认为您的非线性项跳得太快,应该在考虑多项式项之前花更多时间检查数据: 首先,输入二阶和三阶多项式项的更正确方法是:
> M1 = lme(dv ~ poly(iv ,3), data=dat, random= ~1|group, method="REML")
> summary(M1)
Linear mixed-effects model fit by REML
Data: dat
AIC BIC logLik
245.4883 256.8393 -116.7442
Random effects:
Formula: ~1 | group
(Intercept) Residual
StdDev: 2.465855 2.435135
Fixed effects: dv ~ poly(iv, 3)
Value Std.Error DF t-value p-value
(Intercept) 18.14854 1.775524 48 10.221507 0.0000
poly(iv, 3)1 64.86375 2.476145 48 26.195452 0.0000
poly(iv, 3)2 2.76606 2.462331 48 1.123349 0.2669
poly(iv, 3)3 -13.90253 2.485106 48 -5.594339 0.0000
Correlation:
(Intr) p(,3)1 p(,3)2
poly(iv, 3)1 -0.002
poly(iv, 3)2 -0.002 0.027
poly(iv, 3)3 0.002 -0.036 -0.030
Standardized Within-Group Residuals:
Min Q1 Med Q3 Max
-2.6349301 -0.6172897 0.1653097 0.7076490 1.6581112
Number of Observations: 53
Number of Groups: 2
现在,为什么三次项重要,而二次项不重要?看看数据。。。这本应该是第一步,而不是事后考虑:
library(lattice)
xyplot( dv ~ iv|group, dat)
png(); print(xyplot( dv ~ iv|group, dat) ); dev.off()
通过一个简单的绘图调用可以明显看出,它们的系统截止值为30(可能为0,尽管下面的数据有点稀疏)。因此,你可以将测量方法的限制所产生的上限效应归因于某种非线性项。也许与要求的答案不完全相同,但@42-绘制的数据看起来是S形的。用外行的话说,它相当平坦,变得陡峭,然后又变得平坦。如果这是一种解释所研究过程的好方法,那么它可能是一种比一般多项式更好、更易于解释的模型。它将提供更多关于该过程具体特征的答案 答案中给出了一种用随机效应拟合此类数据的方法
这是非常错误的(也不清楚你所说的“不起作用”是什么意思)。不要通过平方和立方项来构造朴素的多项式项。使用
poly(iv,3)
代替。如果你用xyplot(dv~iv | group,dat)绘制这个图,很明显,非常重要的立方项是天花板效应的产物,因为你的“dv”在30处最大。像往常一样,@bondedust对统计模型和R有权威的答案。我唯一的评论是阅读帮助(nlme:::predict.lme)
。在其中,您将了解如何获取每个组的预测。通常,使用双冒号或三冒号访问帮助文件不会获得好的结果。加载pkg:nlme后,这将成功:帮助(predict.lme)
或不加载它:帮助(predict.lme,pack=nlme)
@Bonded dust。感谢您就多项式和poly()的使用或“不当使用”提出的建议函数。非常有用,但上面的数据不是真实的数据,只是为了举例说明如何预测值。如果这不是最好的示例数据,请道歉,如果我的问题不清楚,我已经做了一些编辑,试图澄清我的问题。我在R方面还是一个相对初学者,请原谅ar跟我来!predict.lme上的帮助文件没有提供太多信息–那是我的第一个呼叫端口。再次感谢多项式建议。+1表示“查看数据……这应该是业务的第一顺序,而不是事后考虑”。我经常这样做。
> M1 = lme(dv ~ poly(iv ,3), data=dat, random= ~1|group, method="REML")
> summary(M1)
Linear mixed-effects model fit by REML
Data: dat
AIC BIC logLik
245.4883 256.8393 -116.7442
Random effects:
Formula: ~1 | group
(Intercept) Residual
StdDev: 2.465855 2.435135
Fixed effects: dv ~ poly(iv, 3)
Value Std.Error DF t-value p-value
(Intercept) 18.14854 1.775524 48 10.221507 0.0000
poly(iv, 3)1 64.86375 2.476145 48 26.195452 0.0000
poly(iv, 3)2 2.76606 2.462331 48 1.123349 0.2669
poly(iv, 3)3 -13.90253 2.485106 48 -5.594339 0.0000
Correlation:
(Intr) p(,3)1 p(,3)2
poly(iv, 3)1 -0.002
poly(iv, 3)2 -0.002 0.027
poly(iv, 3)3 0.002 -0.036 -0.030
Standardized Within-Group Residuals:
Min Q1 Med Q3 Max
-2.6349301 -0.6172897 0.1653097 0.7076490 1.6581112
Number of Observations: 53
Number of Groups: 2
library(lattice)
xyplot( dv ~ iv|group, dat)
png(); print(xyplot( dv ~ iv|group, dat) ); dev.off()