Performance 决定spark中的洗牌分区大小和分区数_Performance_Apache Spark_Optimization_Pyspark_Databricks

Performance 决定spark中的洗牌分区大小和分区数

performance apache-spark optimization pyspark

Performance 决定spark中的洗牌分区大小和分区数,performance,apache-spark,optimization,pyspark,databricks,Performance,Apache Spark,Optimization,Pyspark,Databricks,你们中有谁能告诉我下面的公式在穿梭分区文件大小和随机分区数量方面是如何工作的吗 100芯 150个随机分区 750 MB平均洗牌文件大小--------如何计算或者将洗牌分区减少到100 1.125 gb平均洗牌分区大小 1个任务周期------如何计算或者将洗牌区数增加到200 562.5 MB平均洗牌分区大小--------如何计算 2个任务周期因为，spark.sql.shuffle.partitions是并行度，降低它的值意味着将作业划分为更少的任务，这意味着每个任务平均会抛出更

你们中有谁能告诉我下面的公式在穿梭分区文件大小和随机分区数量方面是如何工作的吗

100芯

150个随机分区

750 MB平均洗牌文件大小--------如何计算

或者将洗牌分区减少到100

1.125 gb平均洗牌分区大小

1个任务周期------如何计算

或者将洗牌区数增加到200

562.5 MB平均洗牌分区大小--------如何计算

2个任务周期

因为，

spark.sql.shuffle.partitions

是并行度，降低它的值意味着将作业划分为更少的任务，这意味着每个任务平均会抛出更多的数据。相反，我很清楚这一点。但是，随机分组大小和（核心数、随机分组数）之间是否存在任何关系。我指的是一种计算itTotal file size/Shuffle Partitions=分区大小的方法。核心数表示可以同时运行的并行任务数。因为为每个分区创建了一个任务，所以任务的周期是洗牌分区/核心数。