在这种情况下,如何理解rep()的用法?
有一个数据集在这种情况下,如何理解rep()的用法?,r,data-visualization,data-analysis,rep,R,Data Visualization,Data Analysis,Rep,有一个数据集randomdat包含299个OB,两个分类变量,var 9包含像有XYZ和没有XYZ,var8包含像组a/组B/组C,var1是一个数值变量 然后是一个模型: m7rep()重复值: >代表(“带XYZ”,5) [1] “带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ” 在这里,它用于创建包含以下内容的数据集: var1的观察值 var9的固定值 var9是一个因子变量,在回归中,其估计系数为-34451.43378。因此,如果您预测一行具有固定值的va
randomdat
包含299个OB,两个分类变量,var 9
包含像有XYZ
和没有XYZ
,var8
包含像组a
/组B
/组C
,var1
是一个数值变量
然后是一个模型:
m7rep()
重复值:
>代表(“带XYZ”,5)
[1] “带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”
在这里,它用于创建包含以下内容的数据集:
var1的观察值
var9
的固定值
var9
是一个因子变量,在回归中,其估计系数为-34451.43378。因此,如果您预测一行具有固定值的var9
“带XYZ”
,然后另一行具有固定值的“不带XYZ”
,则“不带XYZ”
行将下移一个恒定值34451,从而创建平行线。有人吗?……这是我不理解的部分,系数-34451.43378表示“无XYZ”
和“无XYZ”
,对吗?因为var9With XYZ
是基线,所以它没有出现在摘要(m7)
中,对吗?由于数据集randomdat
包含299行,var9=rep(“带XYZ”,299)
或var9=rep(“不带XYZ”,299)
,它基本上会重复“带XYZ”
或“不带XYZ”
299次,我能否将其解释为列var9
中的所有单元格现在是带XYZ的
或“没有XYZ”
?在这种情况下,系数-34451.43378似乎没有意义。系数意味着,在所有其他变量相等的情况下,“有XYZ”和“没有XYZ”的观测值之间的差值为-34451.43378。是的,但不是var9=rep(“有XYZ”,299)
或var9=rep(“没有XYZ”,299)
已将var9
中的所有值替换为带XYZ的,
或不带XYZ的“
,因为它重复299次,而var9
中只有299个OB?”?如果var9
中的所有变量都相同,那么它们是如何平行的?预测反映了var1
和var9
的值,并且var1
的值会发生变化,因此在var1
中得到不同的预测结果。我不确定这是否回答了您的问题。var1
在m7\u predictwith
和m7\u predictwout
中是相同的,您可以从上述预测模型中看到
> summary(m7)
Call:
lm(formula = var3 ~ var1 + I(var1^2) + I(var1^3) + var9, data = randomdat)
Residuals:
Min 1Q Median 3Q Max
-391506 -75127 4799 77175 323856
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -162934.42035 18571.30251 -8.773 <0.0000000000000002 ***
var1 10927.87454 741.36511 14.740 <0.0000000000000002 ***
I(var1^2) -180.82979 10.44006 -17.321 <0.0000000000000002 ***
I(var1^3) 0.99499 0.04223 23.562 <0.0000000000000002 ***
var9Without XYZ -34451.43378 14570.55030 -2.364 0.0187 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 117500 on 294 degrees of freedom
Multiple R-squared: 0.8642, Adjusted R-squared: 0.8624
F-statistic: 467.9 on 4 and 294 DF, p-value: < 0.00000000000000022
m7_predictwith <- predict(m7,list(var1=randomdat$var1, var9 = rep("With XYZ",299)))
m7_predictwout <- predict(m7,list(var1=randomdat$var1, var9 = rep("Without XYZ",299)))
ggplot(randomdat, aes(x = var1, y = var3)) +
geom_point(aes(colour = var8, shape = var8)) +
geom_line(aes(x=randomdat$var1,y=m7_predictwith), color = 'red', lty = 2) +
geom_line(aes(x=randomdat$var1,y=m7_predictwout), color = 'black', lty = 3)