Apache spark 调整模型适用于Spark ML_Apache Spark_Pyspark_Apache Spark Ml

Apache spark 调整模型适用于Spark ML

apache-spark pyspark

Apache spark 调整模型适用于Spark ML,apache-spark,pyspark,apache-spark-ml,Apache Spark,Pyspark,Apache Spark Ml,我通过Spark ML在Pyspark中安装了大量的模型（请参见：），我想知道我能做些什么来加快单独的安装我的数据集是一个大约50gb的spark数据帧，从libsvm格式读取，我运行在一个动态分配的纱线集群上，分配的执行器内存=10gb。通过安装logistic回归分类器，它在logistic回归中创建了大约30个树形网格步骤。scala:1018，每个步骤交替执行约340mb的随机读取和随机写入执行者来来去去，但看起来典型的阶段运行时间大约为5秒。有什么我可以改进这些配合的表现吗？作为S

我通过Spark ML在Pyspark中安装了大量的模型（请参见：），我想知道我能做些什么来加快单独的安装

我的数据集是一个大约50gb的spark数据帧，从libsvm格式读取，我运行在一个动态分配的纱线集群上，分配的执行器内存=10gb。通过安装logistic回归分类器，它在logistic回归中创建了大约30个

树形网格步骤。scala:1018

，每个步骤交替执行约340mb的随机读取和随机写入

执行者来来去去，但看起来典型的阶段运行时间大约为5秒。有什么我可以改进这些配合的表现吗？

作为Spark的一般工作，你可以做一些事情来缩短训练时间

spark.driver.memory注意你的驱动程序内存，有些算法确实会将数据洗牌到你的驱动程序中（以减少计算时间），因此它可能是增强的一个来源，或者至少有一个故障点需要注意

更改spark.executor.memory以使其使用作业所需的最大内存，但也尽可能少地使用内存，以便您可以在群集中的每个节点（机器）中安装更多的执行器，并且随着工作人员的增加，您将有更多的计算机能力来处理作业

spark.sql.shuffle.partitions由于您可能使用数据帧来处理数据，请尝试使用此参数的不同值，以便每个执行器可以执行更多任务

spark.executor.cores在5以下使用它，你就很好了，超过5，你可能会增加执行者处理其中任务“洗牌”的时间

缓存/持久化：如果您担心执行者无法处理数据，请在进行大规模转换之前尝试持久化数据，使用StorageLevel.DISK\u和\u内存，这样您就可以同时使用这两种内存

重要提示：所有这些都是基于我自己的经验，仅使用Spark ML在具有1TB-5TB和30-50特性的数据集上训练算法，我已经研究过如何改进自己的工作，但我不具备解决您问题的能力。了解有关您的数据的更多信息，并查看执行者的日志以了解进一步的增强功能。

请参阅：