Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apachespark随机林性能缓慢_Apache Spark_Machine Learning_Random Forest - Fatal编程技术网

Apache spark apachespark随机林性能缓慢

Apache spark apachespark随机林性能缓慢,apache-spark,machine-learning,random-forest,Apache Spark,Machine Learning,Random Forest,获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的 目前,我们有一个模型如下所示: 功能子策略全部 杂质基尼 麦克宾斯32 最大深度11 类别2的数目 树木数目100 我们将Spark 1.5.1作为独立群集运行 1个主节点和2个工作节点 每个节点上的RAM容量为32GB,有4个核心 分类需要440ms 当我们把树的数量增加到500棵时,已经需要8秒了。 我们试图减少深度,但错误率更高。我们有大约246个属性 也许我们做错了什么。有什么办法可以提高性能吗 增加决策树的

获得一些关于调整ApacheSpark以进行随机森林分类的技巧是很好的
目前,我们有一个模型如下所示:

  • 功能子策略全部
  • 杂质基尼
  • 麦克宾斯32
  • 最大深度11
  • 类别2的数目
  • 树木数目100
我们将Spark 1.5.1作为独立群集运行

  • 1个主节点和2个工作节点
  • 每个节点上的RAM容量为32GB,有4个核心
  • 分类需要440ms
当我们把树的数量增加到500棵时,已经需要8秒了。 我们试图减少深度,但错误率更高。我们有大约246个属性


也许我们做错了什么。有什么办法可以提高性能吗

增加决策树的数量肯定会增加预测时间,因为问题实例必须遍历所有树。但是降低它对预测精度没有好处。您必须改变此参数(决策树的数量)并找到最佳值。这就是为什么它被称为超参数。超参数高度依赖于数据和属性的性质。您可能还需要逐个改变其他超参数,以实现全局最优


另外,当你说预测时间时,你是否也包括加载模型的时间!如果是这样的话,我想模型时间不应该被认为是预测时间。这只是加载模型和准备应用程序进行预测的开销。

我不熟悉Spark,但可能是内存相关的问题(例如交换)?因为你的运行时间似乎是非线性增长的。只是预测速度慢,还是训练速度慢?你只是想预测一个或多个例子吗?预测速度很慢,这是主要问题。之前的训练也很慢,但是在我们删除了分类功能后速度提高了。你解决了这个问题吗?