Apache spark 了解各阶段的火花端子输出

Apache spark 了解各阶段的火花端子输出,apache-spark,Apache Spark,我是Spark的新手,正在尝试了解其在终端上的阶段的日志输出。我正在本地机器上处理一个非常大的数据集,在操作过程中,我将看到如下内容: [Stage: 4 ==> (10 + 4) / 200] 我知道阶段是RDD的所有操作,但是最后的数字呢?它们代表任务吗 (10 + 4) / 200] 10完成的任务数 4运行的并发任务数(即我机器上的内核数?) 200此阶段的任务总数 它被称为控制台进度条。对于上述阶段,以下是数字的含义 [(numCompletedTas

我是Spark的新手,正在尝试了解其在终端上的阶段的日志输出。我正在本地机器上处理一个非常大的数据集,在操作过程中,我将看到如下内容:

[Stage: 4 ==>           (10 + 4) / 200]
我知道阶段是RDD的所有操作,但是最后的数字呢?它们代表任务吗

(10 + 4) / 200] 
  • 10
    完成的任务数
  • 4
    运行的并发任务数(即我机器上的内核数?)
  • 200
    此阶段的任务总数

它被称为控制台进度条。对于上述阶段,以下是数字的含义

[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

希望这有帮助,干杯。

看起来你自己解决了所有问题:)谢谢验证!:)