Hadoop 配置单元作业已终止-对等机重置IPC连接

Hadoop 配置单元作业已终止-对等机重置IPC连接,hadoop,mapreduce,hive,hdfs,hadoop2,Hadoop,Mapreduce,Hive,Hdfs,Hadoop2,我的配置单元脚本包含许多查询,在执行许多查询后,在特定点失败 香草蜂巢版本:1.2.1 执行引擎:mapreduce 在日志中,我可以看到其中一个数据节点重置了连接。 此问题只是偶尔发生,有时数据节点会因此错误而重新启动 这看起来只是一个网络问题吗 或 可能是内存相关的问题吗?我正在使用hive.auto.convert.join.noconditionaltask=true。 它会导致网络流量过大吗 下面是日志片段,提前感谢 INFO [AsyncDispatcher event handl

我的配置单元脚本包含许多查询,在执行许多查询后,在特定点失败

香草蜂巢版本:1.2.1
执行引擎:mapreduce

在日志中,我可以看到其中一个数据节点重置了连接。 此问题只是偶尔发生,有时数据节点会因此错误而重新启动

这看起来只是一个网络问题吗

可能是内存相关的问题吗?我正在使用hive.auto.convert.join.noconditionaltask=true。 它会导致网络流量过大吗

下面是日志片段,提前感谢

 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_183782727_8787_m_000000_1 TaskAttempt Transitioned from NEW to UNASSIGNED
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: 2 failures on node node3
 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_876576567_8787_m_000001_1 TaskAttempt Transitioned from NEW to UNASSIGNED
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Added attempt_8787483787847_9124_m_000000_1 to list of failed maps
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Added attempt_8787483787847_9124_m_000000_1 to list of failed maps
 INFO [Socket Reader #1 for port 46764] org.apache.hadoop.ipc.Server: Socket Reader #1 for port 46764: readAndProcess from client 160.43.98.11 threw exception [java.io.IOException: Connection reset by peer]
java.io.IOException: Connection reset by peer
 at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
 at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
 at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
 at sun.nio.ch.IOUtil.read(IOUtil.java:197)
 at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
 at org.apache.hadoop.ipc.Server.channelRead(Server.java:2603)
 at org.apache.hadoop.ipc.Server.access$2800(Server.java:136)
 at org.apache.hadoop.ipc.Server$Connection.readAndProcess(Server.java:1481)
 at org.apache.hadoop.ipc.Server$Listener.doRead(Server.java:771)
 at org.apache.hadoop.ipc.Server$Listener$Reader.doRunLoop(Server.java:637)
 at org.apache.hadoop.ipc.Server$Listener$Reader.run(Server.java:608)
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: getResources() for application_8787483787847_9124: ask=1 release= 0 newContainers=0 finishedContainers=0 resourcelimit=<memory:146608, vCores:1> knownNMs=5
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_8787483787847_9124_01_000002
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_8787483787847_9124_01_000003
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Before Scheduling: PendingReds:0 ScheduledMaps:2 ScheduledReds:0 AssignedMaps:2 AssignedReds:0 CompletedMaps:0 CompletedReds:0 ContAlloc:2 ContRel:0 HostLocal:1 RackLocal:1
 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_8787483787847_9124_m_000000_1: Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_8787483787847_9124_m_000000_1: Container killed by the ApplicationMaster.
INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Got allocated containers 2
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143
INFO[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_183782727_8787_m_000000_1 tasktrunt从新任务转换为未分配任务
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor:节点3上发生2次故障
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_876576567_8787_m_000001_1 tasktrunt从新任务转换为未分配任务
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:将尝试添加到失败映射列表中
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:将尝试添加到失败映射列表中
INFO[Socket Reader#1用于端口46764]org.apache.hadoop.ipc.Server:Socket Reader#1用于端口46764:readAndProcess from client 160.43.98.11引发异常[java.io.IOException:Connection reset by peer]
java.io.IOException:对等方重置连接
位于sun.nio.ch.FileDispatcherImpl.read0(本机方法)
位于sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
位于sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
位于sun.nio.ch.IOUtil.read(IOUtil.java:197)
在sun.nio.ch.socketchannelmpl.read(socketchannelmpl.java:380)
位于org.apache.hadoop.ipc.Server.channelRead(Server.java:2603)
位于org.apache.hadoop.ipc.Server.access$2800(Server.java:136)
位于org.apache.hadoop.ipc.Server$Connection.readAndProcess(Server.java:1481)
位于org.apache.hadoop.ipc.Server$Listener.doRead(Server.java:771)
位于org.apache.hadoop.ipc.Server$Listener$Reader.dorunoop(Server.java:637)
位于org.apache.hadoop.ipc.Server$Listener$Reader.run(Server.java:608)
INFO[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor:getResources()用于应用程序
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已收到完整的容器容器_87483787847_9124_01_000002
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已收到完整的容器\u 87483787847\u 9124\u 01\u000003
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:在调度之前:PendingReds:0 ScheduledMaps:2 ScheduledRedes:0 AssignedMaps:2 AssignedReds:0 CompletedReds:0 ContAlloc:2 ContRel:0 HostLocal:1 RackLocal:1
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自尝试的诊断报告\u 87483787847\u 9124\u m\u000000\u 1:容器被应用程序管理员杀死。
集装箱在要求时被杀死。出口代码是143
容器以非零退出代码143退出
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自尝试的诊断报告\u 87483787847\u 9124\u m\u000000\u 1:容器被应用程序管理员杀死。
信息[RMCommunicator分配器]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已分配容器2
集装箱在要求时被杀死。出口代码是143
容器以非零退出代码143退出

“有时会出现此错误,数据节点会重新启动”——您的意思是您的查询会触发DN崩溃?或者您遇到了随机DN崩溃,一些作业(包括您的查询)丢失了一些控制器?如果您确实重新启动了服务器,请调查该计算机上的Linux服务器日志。如果您的意思是DataNode服务死亡,必须重新启动,那么请调查该计算机上的服务日志。@SamsonScharfrichter感谢您的回复,我从Linux管理员那里了解到,如果CPU负载超过75%,服务器将配置为软重新启动。我不知道这个配置。什么???看在上帝的份上,HDFS是一个文件系统!当硬盘已满75%时,他们会怎么做:他们会将硬盘从服务器中取出并将其敲碎吗?“有时会出现此错误,数据节点会重新启动”——您的意思是您的查询会触发DN崩溃?或者您遇到了随机DN崩溃,一些作业(包括您的查询)丢失了一些控制器?如果您确实重新启动了服务器,请调查该计算机上的Linux服务器日志。如果您的意思是DataNode服务死亡,必须重新启动,那么请调查该计算机上的服务日志。@SamsonScharfrichter感谢您的回复,我从Linux管理员那里了解到,如果CPU负载超过75%,服务器将配置为软重新启动。我不知道这个配置。什么???看在上帝的份上,HDFS是一个文件系统!当硬盘已满75%时,他们会怎么做:他们会将硬盘从服务器中取出并将其敲碎吗???