Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号
我的日常spark应用程序处理所有datalake步骤,从处理原始层(重复数据消除和etl功能)、创建DW和数据集市开始。。。 当我启动sparkSession时,我无法决定spark.sql.shuffle.partitions的更好配置是什么。 我的群集配置:Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号,apache-spark,pyspark,Apache Spark,Pyspark,我的日常spark应用程序处理所有datalake步骤,从处理原始层(重复数据消除和etl功能)、创建DW和数据集市开始。。。 当我启动sparkSession时,我无法决定spark.sql.shuffle.partitions的更好配置是什么。 我的群集配置: 7个活动节点 总共738.50 GB内存 Spark版本2.1.0 我的问题是:如何选择spark.sql.shuffle.partitions的更好值来提高spark工作的性能。 谢谢没有标准的答案。但一般来说,首先从高水平的并
- 7个活动节点
- 总共738.50 GB内存
- Spark版本2.1.0
谢谢没有标准的答案。但一般来说,首先从高水平的并行性开始(即大量的分区) 建议每个核心执行2到4个任务
- :