Hadoop 如何重新启动MapReduce任务调度

Hadoop 如何重新启动MapReduce任务调度,hadoop,mapreduce,Hadoop,Mapreduce,我有一个Hadoop集群(版本1.0.3)和一些特定的分析。出于某些原因,map任务可以决定是否合理地运行此特定节点上的数据。如果答案是肯定的,这份工作将进行一些科学分析。 如果没有,最好在其他节点上重新安排此映射任务尝试。我甚至可以预测哪个节点对于重新启动map任务是合理的。 我不想使用跳过功能,因为数据不坏,不应该被跳过。但如果在map阶段结束时再次处理特定数据,这将是合适的 你有什么建议吗 您好恐怕您需要为此需求编写自己的计划程序。您不能仅从作业启动和重新安排任务。所有失败的任务尝试都会根

我有一个Hadoop集群(版本1.0.3)和一些特定的分析。出于某些原因,map任务可以决定是否合理地运行此特定节点上的数据。如果答案是肯定的,这份工作将进行一些科学分析。 如果没有,最好在其他节点上重新安排此映射任务尝试。我甚至可以预测哪个节点对于重新启动map任务是合理的。 我不想使用跳过功能,因为数据不坏,不应该被跳过。但如果在map阶段结束时再次处理特定数据,这将是合适的

你有什么建议吗


您好

恐怕您需要为此需求编写自己的计划程序。您不能仅从作业启动和重新安排任务。所有失败的任务尝试都会根据可用性在不同或相同的节点上自动重新启动。hadoop中有一个属性用于配置任务尝试或重试的次数。还有一个属性可以设置容差,它说:在x%任务失败之前,不要停止,或者根据其他属性的配置停止或继续重新尝试。感兴趣的属性是:“mapred.max.map.failures.percent和mapred.max.reduce.failures.percent和mapred.map.max.truments”,但这意味着,我将失败率设置得很高,并等待任务被安排到适当的节点。这不太雅致。我会得到一个不合理的高不及格率,给我的工作状态留下错误的印象。但是谢谢你的回答。