R 如何执行培训、测试和验证集以预测_R_Validation_Machine Learning_Classification_Training Data

R 如何执行培训、测试和验证集以预测

r validation machine-learning

R 如何执行培训、测试和验证集以预测,r,validation,machine-learning,classification,training-data,R,Validation,Machine Learning,Classification,Training Data,我有一个非常大的数据集，我正在尝试使用R构建一个分类模型。但是，我需要使用训练、测试和验证集。但我有点搞不懂怎么做。例如，我使用一个训练集构建了一棵树，然后使用一个测试集计算预测。但是我相信我应该使用训练集和测试集来优化树，然后使用验证集来验证。我该怎么做 library(rpart) part.installed <- rpart(TARGET ~ RS_DESC+SAP_STATUS + ACTIVATION_STATUS+ROTU

我有一个非常大的数据集，我正在尝试使用R构建一个分类模型。但是，我需要使用训练、测试和验证集。但我有点搞不懂怎么做。例如，我使用一个训练集构建了一棵树，然后使用一个测试集计算预测。但是我相信我应该使用训练集和测试集来优化树，然后使用验证集来验证。我该怎么做

library(rpart)
part.installed <- rpart(TARGET ~  RS_DESC+SAP_STATUS +                         
ACTIVATION_STATUS+ROTUL_STATUS+SIM_STATUS+RATE_PLAN_SEGMENT_NORM,
trainSet, method="class")

part.predictions <- predict(part.installed, testSet, type="class")

库（rpart）
零件安装通常术语如下：
训练集用于构建分类器
验证集用于反复调整算法超参数。所以这里会有一些过度装修，但这就是为什么会有另一个阶段：
在分类器最终完成之前，不得触摸测试集，以防止过度装配。如果您要将模型投入生产，它可以用来估计真实精度
我不太熟悉ML术语，但我认为测试集和验证集指的是同一件事。您将在训练集上进行训练并调整参数，以最大限度地减少测试/验证集中的错误。我对语言的看法是：在执行任何其他操作（如预处理）之前，您首先要分离测试集；在测试模型的整个过程的最后，您将只使用测试集一次。使用剩余的（训练集），您可以创建一个验证集，如果您正在进行交叉验证，则可以创建多个验证集，并且您将使用该验证集来优化模型的超参数。在修复了超参数后，可以为最终模型使用整个训练集。您最终可以根据测试集测试最终模型。如果您的测试集表现不佳，则不应使用相同的数据重新开始，因为您的测试集将变成验证集，并可能导致过度拟合。据我所知，您对培训/测试/验证的解释是正确的。我有一些问题：你想做什么样的分类？二进制还是>2类？您有多少个案例和多少个功能？什么类型的数据？分类的，连续的还是混合的？我有一个1.334.377个观察值的子集。我的目标有5个等级要预测（E、I、A、S、P）。关于我的自变量，一个是连续的，其余的是分类的。好的，但是你能给我一个例子，用R中的代码说明如何使用验证集来调整算法吗？