Machine learning 结合训练数据和验证数据,如何选择超参数?

Machine learning 结合训练数据和验证数据,如何选择超参数?,machine-learning,modeling,cross-validation,data-science,Machine Learning,Modeling,Cross Validation,Data Science,假设我将数据分为训练集和验证集。我在训练集上执行5倍交叉验证,以获得模型的最优超参数,然后使用最优超参数训练模型,并将结果模型应用于验证集。我的问题是,将训练集和验证集结合起来,并使用从训练集获得的超参数来构建最终模型是否合理?如果训练数据相对较小,并且添加验证集会使模型显著增强,这是合理的。但是,同时,添加新数据可能会使以前选择的超参数不太理想(很难显示在向训练集中添加新数据时应应用何种类型的超参数转换)。因此,您需要平衡两件事——从更多数据中获得模型质量,以及由于难以预测超参数含义的变化而可

假设我将数据分为训练集和验证集。我在训练集上执行5倍交叉验证,以获得模型的最优超参数,然后使用最优超参数训练模型,并将结果模型应用于验证集。我的问题是,将训练集和验证集结合起来,并使用从训练集获得的超参数来构建最终模型是否合理?

如果训练数据相对较小,并且添加验证集会使模型显著增强,这是合理的。但是,同时,添加新数据可能会使以前选择的超参数不太理想(很难显示在向训练集中添加新数据时应应用何种类型的超参数转换)。因此,您需要平衡两件事——从更多数据中获得模型质量,以及由于难以预测超参数含义的变化而可能造成的损失。在某种程度上,您可以模拟这个过程以确保它是合理的,如果您在训练数据中有N个点,在验证中有M个点,您可以尝试将训练进一步分割为具有相同比例的块(因此现在一个是N*(N/(N+M)和其他N*(M/(N+M))),在第一个上进行训练,并检查是否存在最优超参数转移(或多或少)对于整个训练集的最佳数据集,如果是这样,您可以安全地添加验证,因为它们也应该转移。如果不是这样,则风险可能不值得获得。

如果训练数据相对较小,并且添加验证集会使您的模型显著增强,这是合理的。

g新数据可能会使您以前选择的超参数处于次优状态(在向训练集中添加新数据时,很难显示应应用何种超参数转换)因此,你要平衡两件事——从更多的数据中获得模型质量,以及由于难以预测超参数含义的变化而可能造成的损失。在某种程度上,你可以模拟这个过程以确保它是有意义的,如果你在训练数据中有N个点,在验证中有M个点,你可以尝试进一步将训练分割成具有相同比例的块n(因此一个现在是n*(n/(n+M)和另一个n*(M/(n+M)),在第一个上进行训练,并检查是否存在最优超参数转移(或多或少)对于整个训练集中的最佳值,如果是这样,您可以安全地添加验证,因为它们也应该转移。如果不是这样,则风险可能不值得。谢谢您的回答。让我尝试在我的理解中重新表述您的话。首先对整个训练集执行交叉验证,获得最佳超参数s和第一个交叉验证分数。下一步使用从上一步获得的最佳超参数训练新模型,但仅对N*(N/(N+M)训练数据进行验证,对其余的N*(M/(N+M))进行验证获得第二个验证分数。比较第一个和第二个分数,如果它们的差异不显著,那么值得将它们结合起来,对吗?@Lejlott谢谢你的回答。让我试着按照我的理解重新表述你的话。首先对整个训练集执行交叉验证,获得最佳超参数和e第一个交叉验证分数。下一步使用从上一步获得的最佳超参数训练新模型,但仅对N*(N/(N+M)训练数据进行验证,对其余N*(M/(N+M))进行验证获得第二个验证分数。比较第一个和第二个分数,如果它们的差异不显著,那么值得将它们结合起来,对吗?@lejlot