R 如何执行培训、测试和验证集以预测

R 如何执行培训、测试和验证集以预测,r,validation,machine-learning,classification,training-data,R,Validation,Machine Learning,Classification,Training Data,我有一个非常大的数据集,我正在尝试使用R构建一个分类模型。 但是,我需要使用训练、测试和验证集。但我有点搞不懂怎么做。例如,我使用一个训练集构建了一棵树,然后使用一个测试集计算预测。但是我相信我应该使用训练集和测试集来优化树,然后使用验证集来验证。我该怎么做 library(rpart) part.installed <- rpart(TARGET ~ RS_DESC+SAP_STATUS + ACTIVATION_STATUS+ROTU

我有一个非常大的数据集,我正在尝试使用R构建一个分类模型。 但是,我需要使用训练、测试和验证集。但我有点搞不懂怎么做。例如,我使用一个训练集构建了一棵树,然后使用一个测试集计算预测。但是我相信我应该使用训练集和测试集来优化树,然后使用验证集来验证。我该怎么做

library(rpart)
part.installed <- rpart(TARGET ~  RS_DESC+SAP_STATUS +                         
ACTIVATION_STATUS+ROTUL_STATUS+SIM_STATUS+RATE_PLAN_SEGMENT_NORM,
trainSet, method="class")

part.predictions <- predict(part.installed, testSet, type="class")
库(rpart)

零件安装通常术语如下:

  • 训练集用于构建分类器
  • 验证集用于反复调整算法超参数。所以这里会有一些过度装修,但这就是为什么会有另一个阶段:
  • 在分类器最终完成之前,不得触摸测试集,以防止过度装配。如果您要将模型投入生产,它可以用来估计真实精度

  • 我不太熟悉ML术语,但我认为测试集和验证集指的是同一件事。您将在训练集上进行训练并调整参数,以最大限度地减少测试/验证集中的错误。我对语言的看法是:在执行任何其他操作(如预处理)之前,您首先要分离测试集;在测试模型的整个过程的最后,您将只使用测试集一次。使用剩余的(训练集),您可以创建一个验证集,如果您正在进行交叉验证,则可以创建多个验证集,并且您将使用该验证集来优化模型的超参数。在修复了超参数后,可以为最终模型使用整个训练集。您最终可以根据测试集测试最终模型。如果您的测试集表现不佳,则不应使用相同的数据重新开始,因为您的测试集将变成验证集,并可能导致过度拟合。据我所知,您对培训/测试/验证的解释是正确的。我有一些问题:你想做什么样的分类?二进制还是>2类?您有多少个案例和多少个功能?什么类型的数据?分类的,连续的还是混合的?我有一个1.334.377个观察值的子集。我的目标有5个等级要预测(E、I、A、S、P)。关于我的自变量,一个是连续的,其余的是分类的。好的,但是你能给我一个例子,用R中的代码说明如何使用验证集来调整算法吗?