R rpart模型在使用插入符号';s列车

R rpart模型在使用插入符号';s列车,r,r-caret,rpart,R,R Caret,Rpart,我正在使用rpart为我的数据获取分类模型,但我不知道如何分配桶大小,以避免获取拟合过度或拟合不足的模型。为了获得最佳的存储桶大小,我了解到使用caret的package train方法提供了一种获得最佳存储桶的方法,因此实现了R中的几行: tree <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, minbucket = 15) - (I have anonymized the formul

我正在使用rpart为我的数据获取分类模型,但我不知道如何分配桶大小,以避免获取拟合过度或拟合不足的模型。为了获得最佳的存储桶大小,我了解到使用caret的package train方法提供了一种获得最佳存储桶的方法,因此实现了R中的几行:

tree <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, minbucket = 15) - (I have anonymized the formula of my model)
numfolds <- trainControl(method = "cv", number = 10)
cpGrid <- expand.grid(.cp = seq(0.0001, 0.005, 0.0001))
train(y ~ x1 + x2 + x3 + x4 + x5 + x6, data = train, method = "rpart", trControl = numfolds, tuneGrid = cpGrid)
好的,我注意到了,在我的rpart模型中使用了cp=0.0024

treeCV <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, cp = 0.0024)
prp(treeCV)

treeCV最有可能与您的数据有关,您应该查看变量重要性和/或双变量图;你们的群体不平衡吗?如果不执行CV,会发生什么情况?是否存在一个不是根的模型?为什么找到的最佳模型只有根,这可能与你的数据有关,而不是其他任何东西。我有一个最初的15个预测因子,其中一些是分类的,一些是连续的。我选择了最后6个,因为它们给出了很好的线性回归拟合,所以我使用了它们。此外,我的数据中的观察结果有重复条目,即,将其视为来自同一客户的多次访问,每次访问的结果是一个二进制变量,因此我的因变量。我怀疑与此有关,对吗?
treeCV <- rpart(y ~ x1 + x2 + x3 + x4 + x5 + x6, method = 'class', data = train, cp = 0.0024)
prp(treeCV)