Hadoop 如果资源经理倒下了怎么办?

Hadoop 如果资源经理倒下了怎么办?,hadoop,mapreduce,resourcemanager,Hadoop,Mapreduce,Resourcemanager,在最新版本的Hadoop mapreduce(称为“纱线”)中,JobTracker(存在于以前的版本中)已被ResourceManager(称为“RM”)和ApplicationMaster取代。 在关于纱线体系结构的官方文件中,没有文字说明MapReduce集群中有多少RM,给定的纱线体系结构图显示集群中只存在1个RM 那么,如果唯一的RM关闭了怎么办?如果有多个RM,它们如何协同工作 希望有人能给我解释一下。 谢谢。每个机架有一个ResourceManager,但您的群集中可以有多个机架

在最新版本的Hadoop mapreduce(称为“纱线”)中,JobTracker(存在于以前的版本中)已被ResourceManager(称为“RM”)和ApplicationMaster取代。 在关于纱线体系结构的官方文件中,没有文字说明MapReduce集群中有多少RM,给定的纱线体系结构图显示集群中只存在1个RM

那么,如果唯一的RM关闭了怎么办?如果有多个RM,它们如何协同工作

希望有人能给我解释一下。
谢谢。

每个机架有一个ResourceManager,但您的群集中可以有多个机架

如果在ResourceManager关闭时尝试提交作业,Hadoop将尝试连接到ResourceManager,因为它需要它来执行作业

以下是RM关闭并尝试提交作业时的日志示例:

14/06/06 09:39:54 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
14/06/06 09:39:55 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
14/06/06 09:39:56 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)  

RM返回后,作业将正确提交。

谢谢您的回答。很抱歉这么晚才看到答案。但是你能解释一下这些RMs是如何协同工作的吗?我的意思是,如果在不同的机架中有几个RM,并且一个作业应该提交给Hadoop,那么将使用哪个RM,以及如何使用?谢谢。根据您的回答,如果群集中只有一个RM停机,那么作业保存到哪里?Hadoop会尝试连接RM多少次?它是可配置的吗?我是Hadoop新手,如果你知道的话,希望你能给我解释一下。谢谢。很抱歉,我不能回答你的第一个问题,因为我有一个只有一个RM:D的小型体系结构。关于第二个问题,你说的“节省的工作”是什么意思?RM将尝试重新连接,直到作业正在运行,即您不会终止它。