Python scikit学习中多个随机森林模型的平均值

Python scikit学习中多个随机森林模型的平均值,python,machine-learning,scikit-learn,random-forest,Python,Machine Learning,Scikit Learn,Random Forest,我有一个非常大的数据集,我想在数据集的分区上训练几个随机森林模型,然后对这些模型求平均值,得到最终的分类器。由于随机森林是一种集成方法,这是一种直观合理的方法,但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗 我也愿意使用另一个软件包中的随机林分类器,只是不确定要去哪里查找。以下是我能想到的: 熊猫+Scikit: 您可以自定义自己的引导算法,从整个数据集中随机读取一个大小合理的样本,并在其上安装scikit树(如果您在每个节点上随机设置功能,这将是完美的)。然后对每

我有一个非常大的数据集,我想在数据集的分区上训练几个随机森林模型,然后对这些模型求平均值,得到最终的分类器。由于随机森林是一种集成方法,这是一种直观合理的方法,但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗


我也愿意使用另一个软件包中的随机林分类器,只是不确定要去哪里查找。

以下是我能想到的:

  • 熊猫+Scikit: 您可以自定义自己的引导算法,从整个数据集中随机读取一个大小合理的样本,并在其上安装scikit树(如果您在每个节点上随机设置功能,这将是完美的)。然后对每棵树进行酸洗,最后将它们取平均值,得出你的随机森林

  • Turi拥有自己的大数据库(SFrame,类似于熊猫)和机器学习库(graphlab,非常类似于scikit)。环境很美

  • 对于某些人来说,可能会有一个更陡峭的学习曲线,但这将是一个有效的解决方案

  • 您也可以使用内存映射numpy选项,但它将比前三个选项更麻烦,而且我从来没有这样做过,所以我将把这个选项留在这里


  • 总而言之,我会选择选项2。

    为什么不在数据分区上训练基本学习者(树),然后对它们进行平均,得出一个随机林?很好,如果在同一分区上训练多棵树,这种方法实际上是等效的。你知道我可以用什么参考资料来建立这个模型吗?对于选项1,你知道如何平均腌制的树吗?否则,这是一个非常有用的答案。您可以将所有树保存到同一个pickle中,然后立即加载所有树。此线程可以帮助您完成此操作:。在此基础上,我只需编写一个简单的函数来预测每个未勾选的树。当我很快进行实际编码时,我会更新我的答案。