Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark DataProc群集Spark作业提交无法启动NodeManager_Apache Spark_Google Cloud Platform_Google Cloud Dataproc - Fatal编程技术网

Apache spark DataProc群集Spark作业提交无法启动NodeManager

Apache spark DataProc群集Spark作业提交无法启动NodeManager,apache-spark,google-cloud-platform,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Google Cloud Dataproc,我们有配置了4个工作进程的Dataproc集群。群集已启动并正在运行,无论何时尝试提交spark作业,都会出现以下错误: YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager Stackdriver日志中看到的一些消息如下 Daemon

我们有配置了4个工作进程的Dataproc集群。群集已启动并正在运行,无论何时尝试提交spark作业,都会出现以下错误:

YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager
Stackdriver日志中看到的一些消息如下

Daemon YARN_NODE_MANAGER failed to restart
更新: 即使在我们向现有Dataproc集群添加新的工作节点时,也会注意到这个问题

org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from <MasterNode DNS> , Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:374)
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:252)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:845)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:912)

org.apache.hadoop.warn.exceptions.YarnRuntimeException:从Resourcemanager接收到关闭信号,节点管理器注册失败,来自Resourcemanager的消息:不允许的节点管理器来自,向节点管理器发送关闭信号。
位于org.apache.hadoop.warn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:374)
位于org.apache.hadoop.warn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:252)
位于org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
位于org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
位于org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
位于org.apache.hadoop.warn.server.nodemanager.nodemanager.initAndStartNodeManager(nodemanager.java:845)
位于org.apache.hadoop.warn.server.nodemanager.nodemanager.main(nodemanager.java:912)

此错误看起来像是纱线节点管理器停用问题。您能否检查Dataproc master GCE VM中的以下包含/排除节点配置文件是否存在错误:

  • /etc/hadoop/conf/nodes\u排除
  • /etc/hadoop/conf/nodes\u包括
更改这些配置文件后,请运行刷新节点命令:

yarn rmadmin -refreshNodes 
然后您应该看到节点管理员重新加入纱线

有关详情,请参阅:

您是否对簇或纱线配置进行了更改?你看过Stackdriver上的日志了吗?检查了日志,不确定,重新创建了集群,我没有看到这个错误。如果我们在创建集群后,在添加新节点时,在现有集群中添加新的工作节点,就会看到类似的问题。注意到以下错误。
org.apache.hadoop.warn.exceptions.YarnRuntimeException:从Resourcemanager接收到关闭信号,NodeManager注册失败,Resourcemanager消息:从,正在向org.apache.hadoop.warn.server.NodeManager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:374)上的NodeManager.org.apache.hadoop.warn.server.NodeManager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:252)发送关闭信号
,手动添加并重新启动节点后,节点_include文件中的FQDN出现一些问题,这些节点显示在纱线管理器中。