在这种情况下,如何理解rep()的用法?

在这种情况下,如何理解rep()的用法?,r,data-visualization,data-analysis,rep,R,Data Visualization,Data Analysis,Rep,有一个数据集randomdat包含299个OB,两个分类变量,var 9包含像有XYZ和没有XYZ,var8包含像组a/组B/组C,var1是一个数值变量 然后是一个模型: m7rep()重复值: >代表(“带XYZ”,5) [1] “带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ” 在这里,它用于创建包含以下内容的数据集: var1的观察值 var9的固定值 var9是一个因子变量,在回归中,其估计系数为-34451.43378。因此,如果您预测一行具有固定值的va

有一个数据集
randomdat
包含299个OB,两个分类变量,
var 9
包含像
有XYZ
没有XYZ
var8
包含像
组a
/
组B
/
组C
var1
是一个数值变量

然后是一个模型:

m7
rep()
重复值:

>代表(“带XYZ”,5)
[1] “带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”“带XYZ”
在这里,它用于创建包含以下内容的数据集:

  • var1的观察值
  • var9
    的固定值

var9
是一个因子变量,在回归中,其估计系数为-34451.43378。因此,如果您预测一行具有固定值的
var9
“带XYZ”
,然后另一行具有固定值的
“不带XYZ”
,则
“不带XYZ”
行将下移一个恒定值34451,从而创建平行线。

有人吗?……这是我不理解的部分,系数-34451.43378表示
“无XYZ”
“无XYZ”
,对吗?因为
var9With XYZ
是基线,所以它没有出现在
摘要(m7)
中,对吗?由于数据集
randomdat
包含299行,
var9=rep(“带XYZ”,299)
var9=rep(“不带XYZ”,299)
,它基本上会重复
“带XYZ”
“不带XYZ”
299次,我能否将其解释为列
var9
中的所有单元格现在是带XYZ的
“没有XYZ”
?在这种情况下,系数-34451.43378似乎没有意义。系数意味着,在所有其他变量相等的情况下,“有XYZ”和“没有XYZ”的观测值之间的差值为-34451.43378。是的,但不是
var9=rep(“有XYZ”,299)
var9=rep(“没有XYZ”,299)
已将
var9
中的所有值替换为带XYZ的
或不带XYZ的
,因为它重复299次,而
var9
中只有299个OB?”?如果
var9
中的所有变量都相同,那么它们是如何平行的?预测反映了
var1
var9
的值,并且
var1
的值会发生变化,因此在
var1
中得到不同的预测结果。我不确定这是否回答了您的问题。
var1
m7\u predictwith
m7\u predictwout
中是相同的,您可以从上述预测模型中看到
> summary(m7)

Call:
lm(formula = var3 ~ var1 + I(var1^2) + I(var1^3) + var9, data = randomdat)

Residuals:
    Min      1Q  Median      3Q     Max 
-391506  -75127    4799   77175  323856 

Coefficients:
                     Estimate    Std. Error t value            Pr(>|t|)    
(Intercept)     -162934.42035   18571.30251  -8.773 <0.0000000000000002 ***
var1              10927.87454     741.36511  14.740 <0.0000000000000002 ***
I(var1^2)          -180.82979      10.44006 -17.321 <0.0000000000000002 ***
I(var1^3)             0.99499       0.04223  23.562 <0.0000000000000002 ***
var9Without XYZ  -34451.43378   14570.55030  -2.364              0.0187 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 117500 on 294 degrees of freedom
Multiple R-squared:  0.8642,    Adjusted R-squared:  0.8624 
F-statistic: 467.9 on 4 and 294 DF,  p-value: < 0.00000000000000022
m7_predictwith <- predict(m7,list(var1=randomdat$var1, var9 = rep("With XYZ",299)))
m7_predictwout <- predict(m7,list(var1=randomdat$var1, var9 = rep("Without XYZ",299)))
ggplot(randomdat, aes(x = var1, y = var3)) + 
    geom_point(aes(colour = var8, shape = var8)) + 
    geom_line(aes(x=randomdat$var1,y=m7_predictwith), color = 'red', lty = 2) + 
    geom_line(aes(x=randomdat$var1,y=m7_predictwout), color = 'black', lty = 3)