Scala Spark中的循环分区是如何工作的？_Scala_Apache Spark_Partitioning

Scala Spark中的循环分区是如何工作的？

scala apache-spark

Scala Spark中的循环分区是如何工作的？,scala,apache-spark,partitioning,Scala,Apache Spark,Partitioning,我很难理解Spark中的循环划分。考虑下面的例子。我将大小为3的Seq拆分为3个分区： val df = Seq(0,1,2).toDF().repartition(3) df.explain == Physical Plan == Exchange RoundRobinPartitioning(3) +- LocalTableScan [value#42] 现在，如果我检查分区，我会得到： df .rdd .mapPartitionsWithIndex{case (i,rows)

我很难理解Spark中的循环划分。考虑下面的例子。我将大小为3的Seq拆分为3个分区：

val df = Seq(0,1,2).toDF().repartition(3)

df.explain

== Physical Plan ==
Exchange RoundRobinPartitioning(3)
+- LocalTableScan [value#42]

现在，如果我检查分区，我会得到：

df
  .rdd
  .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))}
  .toDF("partition_index","number_of_records")
  .show

+---------------+-----------------+
|partition_index|number_of_records|
+---------------+-----------------+
|              0|                0|
|              1|                2|
|              2|                1|
+---------------+-----------------+

如果我对大小为8的Seq执行相同的操作，并将其拆分为8个分区，则会得到更严重的倾斜：

(0 to 7).toDF().repartition(8)
  .rdd
  .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))}
  .toDF("partition_index","number_of_records")
  .show

+---------------+-----------------+
|partition_index|number_of_records|
+---------------+-----------------+
|              0|                0|
|              1|                0|
|              2|                0|
|              3|                0|
|              4|                0|
|              5|                0|
|              6|                4|
|              7|                4|
+---------------+-----------------+

有人能解释一下这种行为吗。就我所了解的循环分区而言，所有分区都显示为~相同的大小。

我无法解释原因，但不知何故，它是指向本地主机的链接

如果您选择显式设置：

```
--master local=>1
```
每个分区的行（无并行性）

--master“local[2]”=>每个分区2行（4个分区为空）


--master“local[4]”=>每个分区4行（6个分区为空）

--master“local[8]”=>每个分区8行（7个分区为空）

（已检查Spark版本2.1-2.4）
据我所见，Spark尝试直接从原始分区（通过mapPartitions
）对行进行分区，而不向驱动程序提供任何内容
逻辑是从随机选取的目标分区开始，然后以循环方法将分区分配给行。请注意，为每个源分区选择“开始”分区，可能会发生冲突
最终的分布取决于许多因素：源/目标分区的数量和数据帧中的行数
 有趣！local[N]
中N
的数量决定初始分区的数量，例如当N=4
时，然后（0到7）.toDF（）.rdd.getNumPartitions=4
。因此，循环分区（round-robin partitioning）4个分区中有8个分区，这一定有魔力