“什么是”呢;“邻居”;立方函数中的参数,单位为R?

“什么是”呢;“邻居”;立方函数中的参数,单位为R?,r,analytics,predict,R,Analytics,Predict,我尝试在立方体树的预测函数中使用邻域参数。它应该是0-9之间的整数。当邻域接近0时,计算的R平方将增加。但当“邻居”设置为0(默认值)时,R平方再次变低。什么是“邻居”?为什么会有这种行为?提供了立体派的一个很好的概述。根据他们的描述,这是一种根据训练集中的K个最近邻调整最终模型的方法 最好将其视为另一个需要CV的参数 当邻域接近0时,计算的R平方将增加。但当“邻居”设置为0(默认值)时,R平方再次变低 R平方不是用于选择最佳模型的度量,正如Tchotchke所说,我们应该使用RMSE作为度量,

我尝试在立方体树的预测函数中使用邻域参数。它应该是0-9之间的整数。当邻域接近0时,计算的R平方将增加。但当“邻居”设置为0(默认值)时,R平方再次变低。什么是“邻居”?为什么会有这种行为?

提供了立体派的一个很好的概述。根据他们的描述,这是一种根据训练集中的K个最近邻调整最终模型的方法

最好将其视为另一个需要CV的参数

当邻域接近0时,计算的R平方将增加。但当“邻居”设置为0(默认值)时,R平方再次变低

R平方不是用于选择最佳模型的度量,正如Tchotchke所说,我们应该使用RMSE作为度量,通过cv选择最佳参数。以下结果是通过cv选择最佳参数:

library(caret)
set.seed(1)
cTune <- train(x = train_data[,-1], y = train_data[,1],
              "cubist",
              tuneGrid = expand.grid(committees = c(1, 3, 5, 7),
                                       neighbors = c(0, 1, 2, 3)),
              trControl = trainControl(method = "cv"))
cTune
正如您可以看到的结果,零邻居没有得到最好的R平方,但是得到了最好的RMSE。所以最后的最佳参数是选择五个委员会和零个邻居

什么是“邻居”?为什么会有这种行为

邻域就是最接近测试样本的训练集。 如果因变量有趋势,则邻居的行为用于校正预测误差(上图中的实际tl和预测tl项),如果该误差非常小,则邻居可以为零

plot(cTune)