Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号

Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号,apache-spark,pyspark,Apache Spark,Pyspark,我的日常spark应用程序处理所有datalake步骤,从处理原始层(重复数据消除和etl功能)、创建DW和数据集市开始。。。 当我启动sparkSession时,我无法决定spark.sql.shuffle.partitions的更好配置是什么。 我的群集配置: 7个活动节点 总共738.50 GB内存 Spark版本2.1.0 我的问题是:如何选择spark.sql.shuffle.partitions的更好值来提高spark工作的性能。 谢谢没有标准的答案。但一般来说,首先从高水平的并

我的日常spark应用程序处理所有datalake步骤,从处理原始层(重复数据消除和etl功能)、创建DW和数据集市开始。。。 当我启动sparkSession时,我无法决定spark.sql.shuffle.partitions的更好配置是什么。 我的群集配置:

  • 7个活动节点
  • 总共738.50 GB内存
  • Spark版本2.1.0
我的问题是:如何选择spark.sql.shuffle.partitions的更好值来提高spark工作的性能。
谢谢

没有标准的答案。但一般来说,首先从高水平的并行性开始(即大量的分区)

建议每个核心执行2到4个任务

  • :
一般来说,我们建议集群中每个CPU核心执行2-3个任务

因此,在您的示例中,7个节点,您需要知道核心的数量,因为每个节点可以有多个执行器,每个执行器可以有多个核心

关于内存,这取决于您的数据集有多大,您正在执行什么样的操作,数据是否扭曲,等等

和。。为什么不试试最新的Spark,它已经为您带来了更多的优化功能呢?:)

相关答案