Apache spark apachespark随机林性能缓慢_Apache Spark_Machine Learning_Random Forest

Apache spark apachespark随机林性能缓慢

apache-spark machine-learning

Apache spark apachespark随机林性能缓慢,apache-spark,machine-learning,random-forest,Apache Spark,Machine Learning,Random Forest,获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的目前，我们有一个模型如下所示：功能子策略全部杂质基尼麦克宾斯32 最大深度11 类别2的数目树木数目100 我们将Spark 1.5.1作为独立群集运行 1个主节点和2个工作节点每个节点上的RAM容量为32GB，有4个核心分类需要440ms 当我们把树的数量增加到500棵时，已经需要8秒了。我们试图减少深度，但错误率更高。我们有大约246个属性也许我们做错了什么。有什么办法可以提高性能吗增加决策树的

获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的
目前，我们有一个模型如下所示：

功能子策略全部
杂质基尼
麦克宾斯32
最大深度11
类别2的数目
树木数目100

我们将Spark 1.5.1作为独立群集运行

1个主节点和2个工作节点
每个节点上的RAM容量为32GB，有4个核心
分类需要440ms

当我们把树的数量增加到500棵时，已经需要8秒了。我们试图减少深度，但错误率更高。我们有大约246个属性

也许我们做错了什么。有什么办法可以提高性能吗

增加决策树的数量肯定会增加预测时间，因为问题实例必须遍历所有树。但是降低它对预测精度没有好处。您必须改变此参数（决策树的数量）并找到最佳值。这就是为什么它被称为超参数。超参数高度依赖于数据和属性的性质。您可能还需要逐个改变其他超参数，以实现全局最优

另外，当你说预测时间时，你是否也包括加载模型的时间！如果是这样的话，我想模型时间不应该被认为是预测时间。这只是加载模型和准备应用程序进行预测的开销。

我不熟悉Spark，但可能是内存相关的问题（例如交换）？因为你的运行时间似乎是非线性增长的。只是预测速度慢，还是训练速度慢？你只是想预测一个或多个例子吗？预测速度很慢，这是主要问题。之前的训练也很慢，但是在我们删除了分类功能后速度提高了。你解决了这个问题吗？