Apache spark Spark RDD sortByKey触发新作业
我已经用下面的代码测试了sortByKey方法,并且观察到它在调用时触发了一个新作业。我在API和代码中都找不到这一点。这是一种缩进行为吗?例如,RDD zipWithIndex方法API指定将触发新作业的方法。但是sortByKey呢Apache spark Spark RDD sortByKey触发新作业,apache-spark,Apache Spark,我已经用下面的代码测试了sortByKey方法,并且观察到它在调用时触发了一个新作业。我在API和代码中都找不到这一点。这是一种缩进行为吗?例如,RDD zipWithIndex方法API指定将触发新作业的方法。但是sortByKey呢 val sc = new SparkContext(new SparkConf().setAppName("Spark Count")) val l =sc.parallelize(List((5,'c'),(2,'d'),(1,'a'),(7,'e')), 3
val sc = new SparkContext(new SparkConf().setAppName("Spark Count"))
val l =sc.parallelize(List((5,'c'),(2,'d'),(1,'a'),(7,'e')), 3)
l.sortByKey()
谢谢你的回答。正如肖恩在,
“[…]sortByKey实际上运行一个作业
评估数据分布(见JIRA)”。
我希望这能在调试应用程序的作业数量和阶段时帮助其他人