Apache spark 了解各阶段的火花端子输出
我是Spark的新手,正在尝试了解其在终端上的阶段的日志输出。我正在本地机器上处理一个非常大的数据集,在操作过程中,我将看到如下内容:Apache spark 了解各阶段的火花端子输出,apache-spark,Apache Spark,我是Spark的新手,正在尝试了解其在终端上的阶段的日志输出。我正在本地机器上处理一个非常大的数据集,在操作过程中,我将看到如下内容: [Stage: 4 ==> (10 + 4) / 200] 我知道阶段是RDD的所有操作,但是最后的数字呢?它们代表任务吗 (10 + 4) / 200] 10完成的任务数 4运行的并发任务数(即我机器上的内核数?) 200此阶段的任务总数 它被称为控制台进度条。对于上述阶段,以下是数字的含义 [(numCompletedTas
[Stage: 4 ==> (10 + 4) / 200]
我知道阶段是RDD的所有操作,但是最后的数字呢?它们代表任务吗
(10 + 4) / 200]
完成的任务数10
运行的并发任务数(即我机器上的内核数?)4
此阶段的任务总数200
[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]
希望这有帮助,干杯。看起来你自己解决了所有问题:)谢谢验证!:)