Apache spark DataProc群集Spark作业提交无法启动NodeManager_Apache Spark_Google Cloud Platform_Google Cloud Dataproc

Apache spark DataProc群集Spark作业提交无法启动NodeManager

apache-spark google-cloud-platform

Apache spark DataProc群集Spark作业提交无法启动NodeManager,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我们有配置了4个工作进程的Dataproc集群。群集已启动并正在运行，无论何时尝试提交spark作业，都会出现以下错误： YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager Stackdriver日志中看到的一些消息如下 Daemon

我们有配置了4个工作进程的Dataproc集群。群集已启动并正在运行，无论何时尝试提交spark作业，都会出现以下错误：

YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager

Stackdriver日志中看到的一些消息如下

Daemon YARN_NODE_MANAGER failed to restart

更新：即使在我们向现有Dataproc集群添加新的工作节点时，也会注意到这个问题

org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from <MasterNode DNS> , Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:374)
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:252)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:845)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:912)

org.apache.hadoop.warn.exceptions.YarnRuntimeException：从Resourcemanager接收到关闭信号，节点管理器注册失败，来自Resourcemanager的消息：不允许的节点管理器来自，向节点管理器发送关闭信号。
位于org.apache.hadoop.warn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM（NodeStatusUpdaterImpl.java:374）
位于org.apache.hadoop.warn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart（NodeStatusUpdaterImpl.java:252）
位于org.apache.hadoop.service.AbstractService.start（AbstractService.java:194）
位于org.apache.hadoop.service.CompositeService.serviceStart（CompositeService.java:121）
位于org.apache.hadoop.service.AbstractService.start（AbstractService.java:194）
位于org.apache.hadoop.warn.server.nodemanager.nodemanager.initAndStartNodeManager（nodemanager.java:845）
位于org.apache.hadoop.warn.server.nodemanager.nodemanager.main（nodemanager.java:912）

此错误看起来像是纱线节点管理器停用问题。您能否检查Dataproc master GCE VM中的以下包含/排除节点配置文件是否存在错误：

/etc/hadoop/conf/nodes\u排除
/etc/hadoop/conf/nodes\u包括

更改这些配置文件后，请运行刷新节点命令：

yarn rmadmin -refreshNodes

然后您应该看到节点管理员重新加入纱线

有关详情，请参阅：

您是否对簇或纱线配置进行了更改？你看过Stackdriver上的日志了吗？检查了日志，不确定，重新创建了集群，我没有看到这个错误。如果我们在创建集群后，在添加新节点时，在现有集群中添加新的工作节点，就会看到类似的问题。注意到以下错误。

org.apache.hadoop.warn.exceptions.YarnRuntimeException：从Resourcemanager接收到关闭信号，NodeManager注册失败，Resourcemanager消息：从，正在向org.apache.hadoop.warn.server.NodeManager.NodeStatusUpdaterImpl.registerWithRM（NodeStatusUpdaterImpl.java:374）上的NodeManager.org.apache.hadoop.warn.server.NodeManager.NodeStatusUpdaterImpl.serviceStart（NodeStatusUpdaterImpl.java:252）发送关闭信号

，手动添加并重新启动节点后，节点_include文件中的FQDN出现一些问题，这些节点显示在纱线管理器中。