Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark RDD sortByKey触发新作业_Apache Spark - Fatal编程技术网

Apache spark Spark RDD sortByKey触发新作业

Apache spark Spark RDD sortByKey触发新作业,apache-spark,Apache Spark,我已经用下面的代码测试了sortByKey方法,并且观察到它在调用时触发了一个新作业。我在API和代码中都找不到这一点。这是一种缩进行为吗?例如,RDD zipWithIndex方法API指定将触发新作业的方法。但是sortByKey呢 val sc = new SparkContext(new SparkConf().setAppName("Spark Count")) val l =sc.parallelize(List((5,'c'),(2,'d'),(1,'a'),(7,'e')), 3

我已经用下面的代码测试了sortByKey方法,并且观察到它在调用时触发了一个新作业。我在API和代码中都找不到这一点。这是一种缩进行为吗?例如,RDD zipWithIndex方法API指定将触发新作业的方法。但是sortByKey呢

val sc = new SparkContext(new SparkConf().setAppName("Spark Count"))
val l =sc.parallelize(List((5,'c'),(2,'d'),(1,'a'),(7,'e')), 3)

l.sortByKey()
谢谢你的回答。

正如肖恩在, “[…]sortByKey实际上运行一个作业 评估数据分布(见JIRA)”。 我希望这能在调试应用程序的作业数量和阶段时帮助其他人