R插入符号(svmRadial)保持西格玛恒定,并使用网格搜索C

R插入符号(svmRadial)保持西格玛恒定,并使用网格搜索C,r,machine-learning,svm,r-caret,hyperparameters,R,Machine Learning,Svm,R Caret,Hyperparameters,我正在用带插入符号的径向基函数核(“svmRadial”)实现一个支持向量机。就我对文档和源代码的理解而言,caret使用一个分析公式来获得sigma的合理估计值,并将其固定到该值(根据输出:调整参数“sigma”保持在0.1028894的恒定值)。此外,caret交叉验证一组成本参数C(默认值=3) 然而,如果我现在想设置我自己的成本参数网格(tuneGrid),我必须另外指定一个sigma值。否则会出现以下错误: 错误:调整参数网格应具有sigma、C列 我如何根据分析公式确定西格玛,并且仍

我正在用带插入符号的径向基函数核(“svmRadial”)实现一个支持向量机。就我对文档和源代码的理解而言,
caret
使用一个分析公式来获得sigma的合理估计值,并将其固定到该值(根据输出:调整参数“sigma”保持在0.1028894的恒定值)。此外,
caret
交叉验证一组成本参数C(默认值=3)

然而,如果我现在想设置我自己的成本参数网格(tuneGrid),我必须另外指定一个sigma值。否则会出现以下错误:

错误:调整参数网格应具有sigma、C列

我如何根据分析公式确定西格玛,并且仍然实现我自己的成本参数网格C

这里是一个MWE:

library(caret)
library(mlbench)

data(BostonHousing)

set.seed(1)
index <- sample(nrow(BostonHousing),nrow(BostonHousing)*0.75)
Boston.train <- BostonHousing[index,]
Boston.test <- BostonHousing[-index,]

# without tuneGrid
set.seed(1)
svmR <- train(medv ~ .,
              data = Boston.train,
              method = "svmRadial",
              preProcess = c("center", "scale"),
              trControl = trainControl(method = "cv", number = 5))

# with tuneGrid (gives the error message)
set.seed(1)
svmR <- train(medv ~ .,
              data = Boston.train,
              method = "svmRadial",
              preProcess = c("center", "scale"),
              tuneGrid = expand.grid(C = c(0.01, 0.1)),
              trControl = trainControl(method = "cv", number = 5))
库(插入符号)
图书馆(mlbench)
数据(Boston外壳)
种子(1)

索引如果您查看模型的信息,它会显示如果您不提供以下信息,网格是如何生成的:

getModelInfo("svmRadial")$svmRadial$grid

function(x, y, len = NULL, search = "grid") {
                    sigmas <- kernlab::sigest(as.matrix(x), na.action = na.omit, scaled = TRUE)
                    if(search == "grid") {
                      out <- expand.grid(sigma = mean(as.vector(sigmas[-2])),
                                         C = 2 ^((1:len) - 3))
                    } else {
                      rng <- extendrange(log(sigmas), f = .75)
                      out <- data.frame(sigma = exp(runif(len, min = rng[1], max = rng[2])),
                                        C = 2^runif(len, min = -5, max = 10))
                    }
                    out
                  }
设置输入x和y,因为您提供了一个公式:

preProcValues = preProcess(Boston.train, method = c("center", "scale")) 
processData = predict(preProcValues,Boston.train)
x = model.matrix(medv ~ .,data=processData)[,-1]
y = processData$medv
我们使用这个模型的网格函数,你可以看到它和你的输出是一样的:

set.seed(1)
models$grid(x,y,3)

      sigma    C
1 0.1028894 0.25
2 0.1028894 0.50
3 0.1028894 1.00

svmR$results
      sigma    C     RMSE  Rsquared      MAE    RMSESD RsquaredSD     MAESD
1 0.1028894 0.25 5.112750 0.7591398 2.982241 0.8569208 0.05387213 0.4032354
2 0.1028894 0.50 4.498887 0.8046234 2.594059 0.7823051 0.05357678 0.3644430
3 0.1028894 1.00 4.055564 0.8349416 2.402248 0.8403222 0.06825159 0.3732571
这就是下面发生的事情:

set.seed(1)
sigmas = kernlab::sigest(as.matrix(x), na.action = na.omit, scaled = TRUE)
# from the code, you can see it takes the mean of the two extreme quantiles

mean(sigmas[-2])
[1] 0.1028894

您需要提供一个sigma列,例如expand.grid(C=C(0.01,0.1),sigma=0.1)?不太确定你想要你的西格玛做什么be@StupidWolf我知道我必须提供一个Sigma列。但是,插入符号似乎通过一个分析公式确定该值。所以我想把它固定到这个特定的值,然后使用网格搜索C。因此,在第一步中,我必须解析地导出sigma,以在tuneGrid中提供它。谢谢。但是,我建议编辑您答案的最后一个数字,因为如果您使用上面预处理过的x,sigma将获得我们在上面输出中看到的值:[1]0.1028894。所以这就是这里发生的事情。
set.seed(1)
sigmas = kernlab::sigest(as.matrix(x), na.action = na.omit, scaled = TRUE)
# from the code, you can see it takes the mean of the two extreme quantiles

mean(sigmas[-2])
[1] 0.1028894