Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 调整模型适用于Spark ML_Apache Spark_Pyspark_Apache Spark Ml - Fatal编程技术网

Apache spark 调整模型适用于Spark ML

Apache spark 调整模型适用于Spark ML,apache-spark,pyspark,apache-spark-ml,Apache Spark,Pyspark,Apache Spark Ml,我通过Spark ML在Pyspark中安装了大量的模型(请参见:),我想知道我能做些什么来加快单独的安装 我的数据集是一个大约50gb的spark数据帧,从libsvm格式读取,我运行在一个动态分配的纱线集群上,分配的执行器内存=10gb。通过安装logistic回归分类器,它在logistic回归中创建了大约30个树形网格步骤。scala:1018,每个步骤交替执行约340mb的随机读取和随机写入 执行者来来去去,但看起来典型的阶段运行时间大约为5秒。有什么我可以改进这些配合的表现吗?作为S

我通过Spark ML在Pyspark中安装了大量的模型(请参见:),我想知道我能做些什么来加快单独的安装

我的数据集是一个大约50gb的spark数据帧,从libsvm格式读取,我运行在一个动态分配的纱线集群上,分配的执行器内存=10gb。通过安装logistic回归分类器,它在logistic回归中创建了大约30个
树形网格步骤。scala:1018
,每个步骤交替执行约340mb的随机读取和随机写入


执行者来来去去,但看起来典型的阶段运行时间大约为5秒。有什么我可以改进这些配合的表现吗?

作为Spark的一般工作,你可以做一些事情来缩短训练时间

spark.driver.memory注意你的驱动程序内存,有些算法确实会将数据洗牌到你的驱动程序中(以减少计算时间),因此它可能是增强的一个来源,或者至少有一个故障点需要注意

更改spark.executor.memory以使其使用作业所需的最大内存,但也尽可能少地使用内存,以便您可以在群集中的每个节点(机器)中安装更多的执行器,并且随着工作人员的增加,您将有更多的计算机能力来处理作业

spark.sql.shuffle.partitions由于您可能使用数据帧来处理数据,请尝试使用此参数的不同值,以便每个执行器可以执行更多任务

spark.executor.cores在5以下使用它,你就很好了,超过5,你可能会增加执行者处理其中任务“洗牌”的时间

缓存/持久化:如果您担心执行者无法处理数据,请在进行大规模转换之前尝试持久化数据,使用StorageLevel.DISK\u和\u内存,这样您就可以同时使用这两种内存

重要提示:所有这些都是基于我自己的经验,仅使用Spark ML在具有1TB-5TB和30-50特性的数据集上训练算法,我已经研究过如何改进自己的工作,但我不具备解决您问题的能力。了解有关您的数据的更多信息,并查看执行者的日志以了解进一步的增强功能。

请参阅: