Hadoop 0.20:“作业设置”任务

Hadoop 0.20:“作业设置”任务,hadoop,Hadoop,我不确定这是否是更新版本的Hadoop已经修复的问题,但我目前正在运行Hadoop 0.20遗留代码 问题是:当我启动Hadoop作业时,需要首先运行作业设置任务。在我看来,Hadoop随机选择这个任务作为map任务或reduce任务 我们配置的映射任务比reduce任务的容量更大,因此,每当我运气不好并且有reduce启动任务时,我的作业甚至要花很长时间才能开始运行。有什么办法可以克服这个问题吗?Hadoop作业首先完成所有映射器任务。一旦所有映射器任务完成,它将通过网络进行洗牌和排序,只有在

我不确定这是否是更新版本的Hadoop已经修复的问题,但我目前正在运行Hadoop 0.20遗留代码

问题是:当我启动Hadoop作业时,需要首先运行作业设置任务。在我看来,Hadoop随机选择这个任务作为map任务或reduce任务


我们配置的映射任务比reduce任务的容量更大,因此,每当我运气不好并且有reduce启动任务时,我的作业甚至要花很长时间才能开始运行。有什么办法可以克服这个问题吗?

Hadoop作业首先完成所有映射器任务。一旦所有映射器任务完成,它将通过网络进行洗牌和排序,只有在这之后,您的reducer任务才会开始处理。因此,我想可能还有其他原因造成这种延迟。

作业设置在映射或缩减阶段之前作为一项单独的任务运行。我看到作业设置是随机的,要么是映射任务,要么是reduce任务。您可以发布日志,说明您的作业任务是如何运行的,因为据我所知,首先您的所有映射程序都将完成