Python scikit学习中多个随机森林模型的平均值_Python_Machine Learning_Scikit Learn_Random Forest

Python scikit学习中多个随机森林模型的平均值

python machine-learning scikit-learn

Python scikit学习中多个随机森林模型的平均值,python,machine-learning,scikit-learn,random-forest,Python,Machine Learning,Scikit Learn,Random Forest,我有一个非常大的数据集，我想在数据集的分区上训练几个随机森林模型，然后对这些模型求平均值，得到最终的分类器。由于随机森林是一种集成方法，这是一种直观合理的方法，但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗我也愿意使用另一个软件包中的随机林分类器，只是不确定要去哪里查找。以下是我能想到的：熊猫+Scikit：您可以自定义自己的引导算法，从整个数据集中随机读取一个大小合理的样本，并在其上安装scikit树（如果您在每个节点上随机设置功能，这将是完美的）。然后对每

我有一个非常大的数据集，我想在数据集的分区上训练几个随机森林模型，然后对这些模型求平均值，得到最终的分类器。由于随机森林是一种集成方法，这是一种直观合理的方法，但我不确定是否可以使用scikit learn的随机森林分类器。有什么想法吗

我也愿意使用另一个软件包中的随机林分类器，只是不确定要去哪里查找。

以下是我能想到的：

熊猫+Scikit：您可以自定义自己的引导算法，从整个数据集中随机读取一个大小合理的样本，并在其上安装scikit树（如果您在每个节点上随机设置功能，这将是完美的）。然后对每棵树进行酸洗，最后将它们取平均值，得出你的随机森林

Turi拥有自己的大数据库（SFrame，类似于熊猫）和机器学习库（graphlab，非常类似于scikit）。环境很美

对于某些人来说，可能会有一个更陡峭的学习曲线，但这将是一个有效的解决方案

您也可以使用内存映射numpy选项，但它将比前三个选项更麻烦，而且我从来没有这样做过，所以我将把这个选项留在这里

总而言之，我会选择选项2。

为什么不在数据分区上训练基本学习者（树），然后对它们进行平均，得出一个随机林？很好，如果在同一分区上训练多棵树，这种方法实际上是等效的。你知道我可以用什么参考资料来建立这个模型吗？对于选项1，你知道如何平均腌制的树吗？否则，这是一个非常有用的答案。您可以将所有树保存到同一个pickle中，然后立即加载所有树。此线程可以帮助您完成此操作：。在此基础上，我只需编写一个简单的函数来预测每个未勾选的树。当我很快进行实际编码时，我会更新我的答案。