在插入符号RFE中，第一个样本大小始终为10个条目_R_Data Mining

在插入符号RFE中，第一个样本大小始终为10个条目

在插入符号RFE中，第一个样本大小始终为10个条目,r,data-mining,R,Data Mining,我正在尝试用caret软件包实现我的自定义功能，用于功能排序。问题是每次第一次调用summary函数时，我只得到10个条目。这在这里不是一个问题，但在一个较大的数据集中，一个类只占所有条目的一小部分（比如5%），它可能根本不会被选中 l = lmFuncs l$summary = function (data, lev = NULL, model = NULL) { print(dim(data)) if (is.character(data$obs)) data$obs &

我正在尝试用caret软件包实现我的自定义功能，用于功能排序。问题是每次第一次调用summary函数时，我只得到10个条目。这在这里不是一个问题，但在一个较大的数据集中，一个类只占所有条目的一小部分（比如5%），它可能根本不会被选中

l = lmFuncs
l$summary = function (data, lev = NULL, model = NULL) 
{
  print(dim(data))
  if (is.character(data$obs)) 
    data$obs <- factor(data$obs, levels = lev)
  postResample(data[, "pred"], data[, "obs"])
}

rfe(data.frame(matrix(rnorm(100*3), ncol=3)), sample(2, 100, replace=T), sizes=1:3, rfeControl=rfeControl(functions=l, number=20))

R会议信息：

R version 2.15.1 (2012-06-22)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] pROC_1.5.4         kernlab_0.9-14     e1071_1.6-1        class_7.3-5        caret_5.15-044     foreach_1.4.0      cluster_1.14.3     reshape_0.8.4      plyr_1.7.1        
[10] lattice_0.20-10    Biobase_2.18.0     BiocGenerics_0.4.0

loaded via a namespace (and not attached):
[1] codetools_0.2-8 compiler_2.15.1 grid_2.15.1     iterators_1.0.6 tools_2.15.1

rfe

、

train

和

sbf

都在执行任何模型功能之前对摘要功能进行初步检查（以获取要检查的度量名称等）

这些函数首先要做的事情之一是对数据集进行随机采样（n=10），然后运行summary函数

因此，这与您的实际建模过程无关

Max

我收到了10多个条目。你能发布一下sessionInfo（）的输出吗大约六个月前，我的实验室伙伴发现了我们认为是rfe/rfeIter中的一个bug。它似乎使用一系列与先前（而非当前）子集大小相等的预测变量来评估拟合度。我离开了我的电脑，所以我无法运行它来查看它是否仍然有问题，但我的labmate的错误演示代码在这里：当你说你认为这是一个错误时，这是否意味着你错了？@Dason，你的

sessionInfo（）

，有什么不同？好吧，如果我在数据集中的两个类的比例是1/100呢？我的分数函数基本上是AUC。问题是，如果所提供的样本中没有任何阳性条目，我就无法计算AUC，而且大多数情况下，由于1/100的比例，因此将不会计算AUC？嗨，这是一个后续问题。在这种情况下，正确的返回值是多少？对于每个计算的度量，使用NA命名的向量是否合适？

R version 2.15.1 (2012-06-22)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] pROC_1.5.4         kernlab_0.9-14     e1071_1.6-1        class_7.3-5        caret_5.15-044     foreach_1.4.0      cluster_1.14.3     reshape_0.8.4      plyr_1.7.1        
[10] lattice_0.20-10    Biobase_2.18.0     BiocGenerics_0.4.0

loaded via a namespace (and not attached):
[1] codetools_0.2-8 compiler_2.15.1 grid_2.15.1     iterators_1.0.6 tools_2.15.1