Python 基于分区基准数据集的机器学习参数整定_Python_Machine Learning_Parameters_Scikit Learn_Svm

Python 基于分区基准数据集的机器学习参数整定

python machine-learning parameters scikit-learn

Python 基于分区基准数据集的机器学习参数整定,python,machine-learning,parameters,scikit-learn,svm,Python,Machine Learning,Parameters,Scikit Learn,Svm,我知道这将是非常基本的，但我真的很困惑，我想更好地理解参数调整我正在处理一个基准数据集，该数据集已经分为三个部分：培训、开发和测试，我想使用GridSearchCV从sklearn调整分类器参数调整参数的正确分区是什么？是发展还是培训？我在文献中看到研究人员提到，他们“使用GridSearchCV在开发拆分上调整参数”，另一个例子是：他们的意思是说他们在培训阶段进行了培训，然后在开发阶段进行了测试？或者ML从业者通常是指他们完全在开发分割上执行GridSearchCV吗我真的很想澄清一

我知道这将是非常基本的，但我真的很困惑，我想更好地理解参数调整

我正在处理一个基准数据集，该数据集已经分为三个部分：培训、开发和测试，我想使用

GridSearchCV

从

sklearn

调整分类器参数

调整参数的正确分区是什么？是发展还是培训？

我在文献中看到研究人员提到，他们“使用

GridSearchCV

在开发拆分上调整参数”，另一个例子是：

他们的意思是说他们在培训阶段进行了培训，然后在开发阶段进行了测试？或者ML从业者通常是指他们完全在开发分割上执行GridSearchCV吗

我真的很想澄清一下。谢谢，

通常在三向分割中，您使用训练集训练模型，然后在开发集（也称为验证集）上对其进行验证，以优化hyperpameters，然后在所有优化完成后，在测试集（也称为评估集）之前对未知的模型执行最终评估

在双向拆分中，您只有一个训练集和一个测试集，因此您可以在同一测试集上执行调优/评估。

如果我有两个拆分（训练和开发），您可以解释如何使用sklearn GridSearchCV吗？thanks@user3446905您可以将它们连接起来并作为一个集合发送到

gridsearchcv.fit（）

，以允许它为您执行拆分，也可以使用预定义的拆分来强制执行拆分，如下所述