Apache spark Spark如何决定对任何RDD执行多少次重新分区

Apache spark Spark如何决定对任何RDD执行多少次重新分区,apache-spark,rdd,partition,Apache Spark,Rdd,Partition,Spark如何决定对任何RDD进行多少次重新分区。RDD repartition()获取数字如何计算数字?在决定分区时的经验法则 分区大小应小于2GB(此限制来自spark代码) 在Spark中,尝试保持分区大小=映射分割大小=HDFS默认块大小。请记住,在spark num reducer任务>=num映射器中,与MR不同 如果分区的数量大约为2000,则增加numPartitions>2000。因为spark对分区2000应用不同的逻辑 可能重复的

Spark如何决定对任何RDD进行多少次重新分区。RDD repartition()获取数字如何计算数字?

在决定分区时的经验法则

  • 分区大小应小于2GB(此限制来自spark代码)

  • 在Spark中,尝试保持分区大小=映射分割大小=HDFS默认块大小。请记住,在spark num reducer任务>=num映射器中,与MR不同

  • 如果分区的数量大约为2000,则增加numPartitions>2000。因为spark对分区<2000和>2000应用不同的逻辑

  • 可能重复的