Hadoop任务进度

Hadoop任务进度,hadoop,Hadoop,我需要计算Hadoop集群中所有节点上运行的每个映射任务的进度。我曾考虑将处理数据的大小除以整个输入数据的大小,但我不确定如何为任务获取这些信息 我看到TaskStatus类有一个方法getProgress(),但是没有对它的描述。它是否提供了我需要的值?对于映射任务,yesgetProgress()返回映射程序在输入文件中的进度。对于reduce任务,计算不那么简单。有一个很好的解释

我需要计算Hadoop集群中所有节点上运行的每个映射任务的进度。我曾考虑将处理数据的大小除以整个输入数据的大小,但我不确定如何为任务获取这些信息


我看到
TaskStatus
类有一个方法
getProgress()
,但是没有对它的描述。它是否提供了我需要的值?

对于映射任务,yes
getProgress()
返回映射程序在输入文件中的进度。对于reduce任务,计算不那么简单。有一个很好的解释