Hadoop JobTRacker是否知道在实际数据传输之前的洗牌阶段,有多少数据传输到每个reduce任务

Hadoop JobTRacker是否知道在实际数据传输之前的洗牌阶段,有多少数据传输到每个reduce任务,hadoop,reducers,Hadoop,Reducers,在Hadoop中,JobTracker能否知道每个ReduceTask在实际数据移动之前(在洗牌阶段)必须检索多少数据?我试图收集有关洗牌阶段数据移动的统计数据。简言之:它能知道吗?也许,它会使用这些信息吗?不 根据您对mapred.reduce.slowstart.completed.maps配置属性的配置,可以在大多数map任务完成之前启动reduce任务,因此调度程序实现在调度reduce任务时不考虑此信息 也许通过实现自己的调度程序,您可以从一些计数器统计信息中检索这些信息,但您必须深入

在Hadoop中,JobTracker能否知道每个ReduceTask在实际数据移动之前(在洗牌阶段)必须检索多少数据?我试图收集有关洗牌阶段数据移动的统计数据。

简言之:它能知道吗?也许,它会使用这些信息吗?不

根据您对
mapred.reduce.slowstart.completed.maps
配置属性的配置,可以在大多数map任务完成之前启动reduce任务,因此调度程序实现在调度reduce任务时不考虑此信息

也许通过实现自己的调度程序,您可以从一些计数器统计信息中检索这些信息,但您必须深入了解源代码,我不确定您是否有权访问计数器

作为替代方案,您能否不使用任务尝试的map/reduce计数器和/或日志(可能还有任务跟踪器日志)