Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/83.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 线性模型中删除截距后的显著值变化_R_Regression_Linear Regression - Fatal编程技术网

R 线性模型中删除截距后的显著值变化

R 线性模型中删除截距后的显著值变化,r,regression,linear-regression,R,Regression,Linear Regression,我实施了一个带截距和不带截距的线性回归: TotalReview ~ Number_of_files + LOC 使用intercept,我得到以下输出,其中文件数\u变量是有效的: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -5.279e+02 1.114e+02 -4.740 0.00515 ** LOC 7.045e-

我实施了一个带截距和不带截距的线性回归:

TotalReview ~ Number_of_files + LOC
使用intercept,我得到以下输出,其中
文件数\u
变量是有效的:

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)   
(Intercept)     -5.279e+02  1.114e+02  -4.740  0.00515 **
LOC              7.045e-04  2.260e-03   0.312  0.76778   
Number_of_files  1.929e+00  6.026e-01   3.202  0.02395 *
Coefficients:
                 Estimate Std. Error t value Pr(>|t|)  
Number_of_files -0.760434   0.433852  -1.753   0.1302  
LOC              0.008528   0.003302   2.582   0.0416 *
如果没有截距,我会得到一个非常不同的输出,
LOC
突然变得非常重要:

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)   
(Intercept)     -5.279e+02  1.114e+02  -4.740  0.00515 **
LOC              7.045e-04  2.260e-03   0.312  0.76778   
Number_of_files  1.929e+00  6.026e-01   3.202  0.02395 *
Coefficients:
                 Estimate Std. Error t value Pr(>|t|)  
Number_of_files -0.760434   0.433852  -1.753   0.1302  
LOC              0.008528   0.003302   2.582   0.0416 *

为什么截距被删除后,我的变量的重要性从
Number\u of_files
变为
LOC

直觉上,回归所做的是通过数据点云以“最佳可能的方式”拟合直线。回归输出中的系数是这条直线的斜率。如果斜率(系数)为零,则(根据回归逻辑)因变量
y
和自变量
x
之间没有关系,即系数将不重要

当您决定从拟合线中删除截距时,线的坡度将发生变化,以尝试通过数据点云拟合尽可能最佳的线。你所看到的正是:
LOC
Number\u文件的系数发生了巨大的变化

在下图中,您可以看到只有一个自变量的情况下的影响(例如,仅
LOC
)。如您所见,蓝线的斜率(无截距)比红线的斜率(有截距)陡峭得多


最后,除非你有很好的理由说明你的模型不应该包含截距,否则你应该保留截距。

非常感谢。是的,你是对的。我应该保持拦截。但令人惊讶的是,如果我删除了截距,那么预测将更加准确,而不是保留截距。多重R平方值0.939英寸(带截距)和0.9928英寸(不带截距)。这就是为什么我不知道我是否应该保持截取?你可以查看这个答案,了解更多信息。我投票结束这个问题,因为这是一个统计问题,而不是编程问题。