R rpart模型在使用插入符号'；s列车_R_R Caret_Rpart

R rpart模型在使用插入符号'；s列车

R rpart模型在使用插入符号'；s列车,r,r-caret,rpart,R,R Caret,Rpart,我正在使用rpart为我的数据获取分类模型，但我不知道如何分配桶大小，以避免获取拟合过度或拟合不足的模型。为了获得最佳的存储桶大小，我了解到使用caret的package train方法提供了一种获得最佳存储桶的方法，因此实现了R中的几行： tree <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, minbucket = 15) - (I have anonymized the formul

我正在使用rpart为我的数据获取分类模型，但我不知道如何分配桶大小，以避免获取拟合过度或拟合不足的模型。为了获得最佳的存储桶大小，我了解到使用caret的package train方法提供了一种获得最佳存储桶的方法，因此实现了R中的几行：

tree <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, minbucket = 15) - (I have anonymized the formula of my model)
numfolds <- trainControl(method = "cv", number = 10)
cpGrid <- expand.grid(.cp = seq(0.0001, 0.005, 0.0001))
train(y ~ x1 + x2 + x3 + x4 + x5 + x6, data = train, method = "rpart", trControl = numfolds, tuneGrid = cpGrid)

好的，我注意到了，在我的rpart模型中使用了cp=0.0024

treeCV <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, cp = 0.0024)
prp(treeCV)

treeCV最有可能与您的数据有关，您应该查看变量重要性和/或双变量图；你们的群体不平衡吗？如果不执行CV，会发生什么情况？是否存在一个不是根的模型？为什么找到的最佳模型只有根，这可能与你的数据有关，而不是其他任何东西。我有一个最初的15个预测因子，其中一些是分类的，一些是连续的。我选择了最后6个，因为它们给出了很好的线性回归拟合，所以我使用了它们。此外，我的数据中的观察结果有重复条目，即，将其视为来自同一客户的多次访问，每次访问的结果是一个二进制变量，因此我的因变量。我怀疑与此有关，对吗？
treeCV <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, cp = 0.0024)
prp(treeCV)