Amazon web services Apache Spark Gradient增强了树训练运行，性能缓慢_Amazon Web Services_Machine Learning_Apache Spark_Elastic Map Reduce

Amazon web services Apache Spark Gradient增强了树训练运行，性能缓慢

amazon-web-services machine-learning apache-spark

Amazon web services Apache Spark Gradient增强了树训练运行，性能缓慢,amazon-web-services,machine-learning,apache-spark,elastic-map-reduce,Amazon Web Services,Machine Learning,Apache Spark,Elastic Map Reduce,我正在试验Spark 1.4的ML库中的学习算法。我正在解决一个二进制分类问题，我的输入是~50000个样本和~500000个特征。我的目标是以人类可读的格式输出生成的GBT集合的定义。到目前为止，我的经验是，对于我的问题大小，向集群添加更多资源似乎不会对运行的长度产生影响。一次10次迭代的训练大概需要13小时。这是不可接受的，因为我希望进行100-300次迭代运行，而且执行时间似乎随着迭代次数的增加而激增我的Spark应用程序这不是确切的代码，但可以简化为： SparkConf sc =

我正在试验Spark 1.4的ML库中的学习算法。我正在解决一个二进制分类问题，我的输入是~50000个样本和~500000个特征。我的目标是以人类可读的格式输出生成的GBT集合的定义。到目前为止，我的经验是，对于我的问题大小，向集群添加更多资源似乎不会对运行的长度产生影响。一次10次迭代的训练大概需要13小时。这是不可接受的，因为我希望进行100-300次迭代运行，而且执行时间似乎随着迭代次数的增加而激增

我的Spark应用程序这不是确切的代码，但可以简化为：

SparkConf sc = new SparkConf().setAppName("GBT Trainer")
            // unlimited max result size for intermediate Map-Reduce ops.
            // Having no limit is probably bad, but I've not had time to find
            // a tighter upper bound and the default value wasn't sufficient.
            .set("spark.driver.maxResultSize", "0");
JavaSparkContext jsc = new JavaSparkContext(sc)

// The input file is encoded in plain-text LIBSVM format ~59GB in size
<LabeledPoint> data = MLUtils.loadLibSVMFile(jsc.sc(), "s3://somebucket/somekey/plaintext_libsvm_file").toJavaRDD();

BoostingStrategy boostingStrategy = BoostingStrategy.defaultParams("Classification");
boostingStrategy.setNumIterations(10);
boostingStrategy.getTreeStrategy().setNumClasses(2);
boostingStrategy.getTreeStrategy().setMaxDepth(1);
Map<Integer, Integer> categoricalFeaturesInfo = new HashMap<Integer, Integer>();
boostingStrategy.treeStrategy().setCategoricalFeaturesInfo(categoricalFeaturesInfo);

GradientBoostedTreesModel model = GradientBoostedTrees.train(data, boostingStrategy);

// Somewhat-convoluted code below reads in Parquete-formatted output
// of the GBT model and writes it back out as json.
// There might be cleaner ways of achieving the same, but since output
// size is only a few KB I feel little guilt leaving it as is.

// serialize and output the GBT classifier model the only way that the library allows
String outputPath = "s3://somebucket/somekeyprefex";
model.save(jsc.sc(), outputPath + "/parquet");
// read in the parquet-formatted classifier output as a generic DataFrame object
SQLContext sqlContext = new SQLContext(jsc);
DataFrame outputDataFrame = sqlContext.read().parquet(outputPath + "/parquet"));    
// output DataFrame-formatted classifier model as json           
outputDataFrame.write().format("json").save(outputPath + "/json");

对于包含3个r3.8X大型实例的集群，我调整了资源分配：

--driver-memory,80G,\
--executor-memory,35G,\
--executor-cores,5,\
--num-executors,18,\

我不清楚给每个遗嘱执行人多少记忆是有用的，但我觉得在这两种情况下我都很慷慨。通过Spark UI查看，我没有看到输入大小超过几GB的任务。在为驱动程序进程提供如此多的内存以确保它不会因任何中间结果聚合操作而内存不足时，我是在谨慎行事

根据中的建议，我试图将每个执行器的内核数保持在5个以下（根据他们的建议，超过5个内核往往会引入HDFS IO瓶颈）。我还要确保为主机操作系统和Hadoop服务留下足够的备用RAM和CPU

到目前为止我的发现我唯一的线索是Spark UI在执行的末尾显示了许多任务的很长的调度延迟。我还觉得Spark UI显示的阶段/任务时间线并没有考虑完成工作所需的所有时间。我怀疑驱动程序应用程序在每次训练迭代结束时，或者在整个训练运行结束时，都无法执行某种长时间的操作

我已经在调优Spark应用程序方面做了相当多的研究。大多数文章都会对使用RDD操作给出很好的建议，RDD操作可以减少中间输入大小或避免阶段之间的数据混乱。在我的例子中，我基本上使用了一个“开箱即用”的算法，它是由ML专家编写的，应该已经在这方面进行了很好的调整。我自己的将GBT模型输出到S3的代码应该只需要很少的时间即可运行。

我没有使用MLLibs GBT实现，但我同时使用了这两种实现

而且很成功。我强烈建议你看看其他的图书馆

一般来说，GBM的实现需要反复训练模型，因为他们在构建下一棵树时考虑到整个集合的丢失。这使得GBM训练固有的瓶颈和不容易并行化（不同于随机林，随机林通常是可并行的）。我希望它能以更少的任务表现得更好，但这可能不是你的全部问题。因为500K有很多特性，所以在训练期间计算直方图和分割点时会有很高的开销。你应该减少你拥有的功能的数量，尤其是因为它们比样本的数量大得多，这会导致它过度拟合

至于调整集群：您希望最大限度地减少数据移动，使更少的执行者拥有更多的内存。每个ec2实例1个执行器，核心数设置为实例提供的任何值

您的数据足够小，可以容纳2个这样大小的EC2。假设您使用的是双精度（8字节），那么它将达到8*500000*50000=200 GB。请尝试在数据帧上使用

.cache（）

将其全部加载到ram中。如果在所有行上执行一个操作（如sum），则应强制加载该操作，并可以测量IO所需的时间。一旦它进入ram并缓存，通过它进行的任何其他操作都会更快

对于这种大小的数据集，最好将完整的数据集加载到内存中，直接使用XGBoost，而不是Spark实现

如果您想坚持使用Spark来提供更大的可伸缩性，我建议您仔细研究一下分区策略。如果您的数据没有得到有效的分区，那么添加计算机将不会改善您的运行时，正如您上面所描述的，并且过载的工作人员子集将仍然是您的瓶颈。确保您有一个有效的分区密钥，并在开始培训阶段之前重新分区RDD。

您提到向集群添加更多资源（我假设执行器和节点）不会影响运行时间。您是否看到了扭曲的数据处理？并行性是否随着附加执行器的增加而增加？您好-您是否找到了解决Spark上GBT性能缓慢的方法？问题仍然存在于2.3.0高效GBT并不容易。这就是ML社区开发LightGBM和XGBoost的原因。此外，对于您的问题，从数据科学的角度来看，拥有比训练样本更多的特性是不正确的。

--driver-memory,80G,\
--executor-memory,35G,\
--executor-cores,5,\
--num-executors,18,\