Scala spark中的平面图是否会导致混乱?
spark中的flatMap的行为是否与map函数类似,因此不会导致洗牌,还是会触发洗牌。我怀疑这确实会导致洗牌。有人能确认一下吗?禁止洗牌。以下是这两个功能的来源:Scala spark中的平面图是否会导致混乱?,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,spark中的flatMap的行为是否与map函数类似,因此不会导致洗牌,还是会触发洗牌。我怀疑这确实会导致洗牌。有人能确认一下吗?禁止洗牌。以下是这两个功能的来源: /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f)
/**
* Return a new RDD by applying a function to all elements of this RDD.
*/
def map[U: ClassTag](f: T => U): RDD[U] = withScope {
val cleanF = sc.clean(f)
new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}
/**
* Return a new RDD by first applying a function to all elements of this
* RDD, and then flattening the results.
*/
def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope {
val cleanF = sc.clean(f)
new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
}
如您所见,
RDD.flatMap
只调用Scala迭代器上表示分区的flatMap
。没有使用map或flatMap进行混洗。导致洗牌的操作有:
- 重新分区操作:
- 重新分配:
- 合并:
- 按键操作(计数除外):
- GroupByKey:
- ReduceByKey:
- 加入操作:
- 协同组:
- 加入:
- mapPartitions,以使用对每个分区进行排序,例如,.sorted
- repartitionAndSortWithinPartitions可在重新分区的同时对分区进行有效排序
- sortBy创建一个全局排序的RDD
此处的更多信息:flatMap在某些情况下可能会导致无序写入。比如,如果在同一个分区中生成多个元素,而该元素无法放入同一分区,那么它会将这些元素写入不同的分区 如以下示例所示:
val rdd = RDD[BigObject]
rdd.flatMap{ bigObject =>
val rangList: List[Int] = List.range(1, 1000)
rangList.map( num => (num, bigObject))
}
上面的代码将在同一个分区上运行,但由于我们创建了太多的BigObject实例,它会将这些对象写入单独的分区,这将导致无序写入请看答案需要更正-Coalesce不会产生无序。这是一个狭义的rdd依赖项。有人能验证这是否正确,如果没有,请将其标记为不正确吗?否则我们不会有最大分区大小错误。我想他/她的意思是会发生“重新分区”。所以,不,flatMap不会导致洗牌。