Python 如何使用不同的数据集进行训练和测试?

Python 如何使用不同的数据集进行训练和测试?,python,machine-learning,scikit-learn,random-forest,data-science,Python,Machine Learning,Scikit Learn,Random Forest,Data Science,我想找到RandomForest分类器(使用scikit learn)的最佳参数,使其能够很好地推广到其他数据集(可能不是iid)。 我在考虑使用整个训练数据集进行网格搜索,同时在其他数据集上评估评分函数。 在python/scikit学习中是否有一个简单的方法可以做到这一点?我认为您无法在不同的数据集上进行评估。GridSearchCV背后的整个想法是,它将您的训练集拆分为n个折叠,在其中的n-1个折叠上进行训练,并在剩余的一个折叠上进行评估,重复该过程,直到每个折叠都是“奇数折叠”。这使您不

我想找到RandomForest分类器(使用scikit learn)的最佳参数,使其能够很好地推广到其他数据集(可能不是iid)。 我在考虑使用整个训练数据集进行网格搜索,同时在其他数据集上评估评分函数。
在python/scikit学习中是否有一个简单的方法可以做到这一点?

我认为您无法在不同的数据集上进行评估。GridSearchCV背后的整个想法是,它将您的训练集拆分为n个折叠,在其中的n-1个折叠上进行训练,并在剩余的一个折叠上进行评估,重复该过程,直到每个折叠都是“奇数折叠”。这使您不必区分特定的验证集,您可以简单地使用培训集和测试集。

我认为您无法在不同的数据集上进行评估。GridSearchCV背后的整个想法是,它将您的训练集拆分为n个折叠,在其中的n-1个折叠上进行训练,并在剩余的一个折叠上进行评估,重复该过程,直到每个折叠都是“奇数折叠”。这使您不必设置特定的验证集,您可以简单地使用训练集和测试集。

如果可以,您可以简单地合并两个数据集并执行GridSearchCV,这确保了对其他数据集的泛化能力。如果您谈论的是对未来未知数据集的泛化,那么这可能不起作用,因为没有一个完美的数据集可以用来训练完美的模型。

如果可以,您可以简单地合并两个数据集并执行GridSearchCV,这确保了对另一个数据集的泛化能力。如果您谈论的是对未来未知数据集的泛化,那么这可能不起作用,因为没有一个完美的数据集可以用来训练完美的模型。

您不能在另一个数据集上计算评分函数。您不能在另一个数据集上计算评分函数。谢谢!您是否有任何关于未来未知数据集泛化的参考资料?谢谢!您是否有任何提及对未来未知数据集的概括的参考资料?