R 如何选择用于训练模型的最佳数据集

R 如何选择用于训练模型的最佳数据集,r,machine-learning,data-science,sampling,training-data,R,Machine Learning,Data Science,Sampling,Training Data,我想从给定的一组数据点创建一个最佳训练样本,通过模型运行所有可能的训练和测试组合,并根据最佳R2进行选择。 我不想用所有可能的组合运行模型,而是希望每次都像分层集一样选择并运行模型。有没有办法在R里做到这一点 样本数据集 df1 <- data.frame( cbind(sno=1:30 ,x1=c(14.3,14.8,14.8,15,15.1,15.1,15.4,15.4,16.1,14.3,14.8,14.8,15.2,15.1,15.1,15.4,15.4,

我想从给定的一组数据点创建一个最佳训练样本,通过模型运行所有可能的训练和测试组合,并根据最佳R2进行选择。 我不想用所有可能的组合运行模型,而是希望每次都像分层集一样选择并运行模型。有没有办法在R里做到这一点

样本数据集

df1 <- data.frame(
    cbind(sno=1:30 
        ,x1=c(14.3,14.8,14.8,15,15.1,15.1,15.4,15.4,16.1,14.3,14.8,14.8,15.2,15.1,15.1,15.4,15.4,16.1,14.2,14.8,14.7,15.1,15,15,15.3,15.3,15.9,15.1,15,15.3)
        ,y1=c(79.2,78.7,79,78.2,78.7,79.1,78.4,78.7,78.1,79.2,78.7,79,78.2,78.6,79.2,78.4,78.7,78.1,79.1,78.5,78.9,78,78.5,79,78.2,78.5,78,79.2,78.7,78.7)
        ,z1=c(219.8,221.6,232.5,213.1,231,247.6,230.2,240.9,245.5,122.8,124.2,131.5,119.1,130.5,141.1,130.8,137.7,140.8,25.4,30.5,30.5,23.8,29.6,34.6,29.5,33.3,35.2,105,170.7,117.3)
    ))

这违背了训练的目的。理想情况下,您有一个或多个培训数据集和一个未触及的测试数据集,一旦您的模型适合,您将最终测试这些数据集。Cherry使用R平方或任何其他度量来选择训练数据集会引入偏差。更糟糕的是,如果您的模型参数因您使用的训练集而异,那么您的模型可能不是很好,针对测试数据集的结果可能是虚假的