Apache spark apachespark随机林性能缓慢
获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的Apache spark apachespark随机林性能缓慢,apache-spark,machine-learning,random-forest,Apache Spark,Machine Learning,Random Forest,获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的 目前,我们有一个模型如下所示: 功能子策略全部 杂质基尼 麦克宾斯32 最大深度11 类别2的数目 树木数目100 我们将Spark 1.5.1作为独立群集运行 1个主节点和2个工作节点 每个节点上的RAM容量为32GB,有4个核心 分类需要440ms 当我们把树的数量增加到500棵时,已经需要8秒了。 我们试图减少深度,但错误率更高。我们有大约246个属性 也许我们做错了什么。有什么办法可以提高性能吗 增加决策树的
目前,我们有一个模型如下所示:
- 功能子策略全部
- 杂质基尼
- 麦克宾斯32
- 最大深度11
- 类别2的数目
- 树木数目100
- 1个主节点和2个工作节点李>
- 每个节点上的RAM容量为32GB,有4个核心李>
- 分类需要440ms
也许我们做错了什么。有什么办法可以提高性能吗 增加决策树的数量肯定会增加预测时间,因为问题实例必须遍历所有树。但是降低它对预测精度没有好处。您必须改变此参数(决策树的数量)并找到最佳值。这就是为什么它被称为超参数。超参数高度依赖于数据和属性的性质。您可能还需要逐个改变其他超参数,以实现全局最优
另外,当你说预测时间时,你是否也包括加载模型的时间!如果是这样的话,我想模型时间不应该被认为是预测时间。这只是加载模型和准备应用程序进行预测的开销。我不熟悉Spark,但可能是内存相关的问题(例如交换)?因为你的运行时间似乎是非线性增长的。只是预测速度慢,还是训练速度慢?你只是想预测一个或多个例子吗?预测速度很慢,这是主要问题。之前的训练也很慢,但是在我们删除了分类功能后速度提高了。你解决了这个问题吗?