hadoop:限制每个作业的并发映射/减少任务数

hadoop:限制每个作业的并发映射/减少任务数,hadoop,Hadoop,我想向生产集群提交一份研究工作。由于我不需要快速完成此作业,也不想延迟生产作业,因此我希望限制在任何给定时间为该作业执行的任务数。我可以在Hadoop 2中这样做吗?为了限制Hadoop mapreduce资源,可以使用map/reduce插槽公平调度程序。您最好通过设置所需数量的最大映射器和最大还原器来创建新的fairscheduler池,作业可以提交到新创建的fairscheduler池。您还可以执行以下操作 job.getConfiguration.setIntmapred.map.tas

我想向生产集群提交一份研究工作。由于我不需要快速完成此作业,也不想延迟生产作业,因此我希望限制在任何给定时间为该作业执行的任务数。我可以在Hadoop 2中这样做吗?

为了限制Hadoop mapreduce资源,可以使用map/reduce插槽公平调度程序。您最好通过设置所需数量的最大映射器和最大还原器来创建新的fairscheduler池,作业可以提交到新创建的fairscheduler池。

您还可以执行以下操作

job.getConfiguration.setIntmapred.map.tasks,1; job.setNumReduceTask1; job.setPriorityJobPriority.VERY_LOW;
即使存在多个输入数据拆分或提供了多个文件拆分,第一个设置mapred.map.tasks是否有效?假设您已将mapred.map.tasks设置为1,它将确保一次仅运行作业的一个映射实例。默认值为2。但运行任何作业都不会将映射器的数量限制为2,是吗?在我的情况下不是这样的。如果您在伪分发模式下运行,它将被忽略。如果mapreduce.jobtracker.address是本地的,则该值基本上被忽略。