Python scikit学习中多个随机森林模型的平均值
我有一个非常大的数据集,我想在数据集的分区上训练几个随机森林模型,然后对这些模型求平均值,得到最终的分类器。由于随机森林是一种集成方法,这是一种直观合理的方法,但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗Python scikit学习中多个随机森林模型的平均值,python,machine-learning,scikit-learn,random-forest,Python,Machine Learning,Scikit Learn,Random Forest,我有一个非常大的数据集,我想在数据集的分区上训练几个随机森林模型,然后对这些模型求平均值,得到最终的分类器。由于随机森林是一种集成方法,这是一种直观合理的方法,但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗 我也愿意使用另一个软件包中的随机林分类器,只是不确定要去哪里查找。以下是我能想到的: 熊猫+Scikit: 您可以自定义自己的引导算法,从整个数据集中随机读取一个大小合理的样本,并在其上安装scikit树(如果您在每个节点上随机设置功能,这将是完美的)。然后对每
我也愿意使用另一个软件包中的随机林分类器,只是不确定要去哪里查找。以下是我能想到的:
总而言之,我会选择选项2。为什么不在数据分区上训练基本学习者(树),然后对它们进行平均,得出一个随机林?很好,如果在同一分区上训练多棵树,这种方法实际上是等效的。你知道我可以用什么参考资料来建立这个模型吗?对于选项1,你知道如何平均腌制的树吗?否则,这是一个非常有用的答案。您可以将所有树保存到同一个pickle中,然后立即加载所有树。此线程可以帮助您完成此操作:。在此基础上,我只需编写一个简单的函数来预测每个未勾选的树。当我很快进行实际编码时,我会更新我的答案。