Hadoop 配置单元作业已终止-对等机重置IPC连接_Hadoop_Mapreduce_Hive_Hdfs_Hadoop2

Hadoop 配置单元作业已终止-对等机重置IPC连接

hadoop mapreduce hive

Hadoop 配置单元作业已终止-对等机重置IPC连接,hadoop,mapreduce,hive,hdfs,hadoop2,Hadoop,Mapreduce,Hive,Hdfs,Hadoop2,我的配置单元脚本包含许多查询，在执行许多查询后，在特定点失败香草蜂巢版本：1.2.1 执行引擎：mapreduce 在日志中，我可以看到其中一个数据节点重置了连接。此问题只是偶尔发生，有时数据节点会因此错误而重新启动这看起来只是一个网络问题吗或可能是内存相关的问题吗？我正在使用hive.auto.convert.join.noconditionaltask=true。它会导致网络流量过大吗下面是日志片段，提前感谢 INFO [AsyncDispatcher event handl

我的配置单元脚本包含许多查询，在执行许多查询后，在特定点失败

香草蜂巢版本：1.2.1
执行引擎：mapreduce

在日志中，我可以看到其中一个数据节点重置了连接。此问题只是偶尔发生，有时数据节点会因此错误而重新启动

这看起来只是一个网络问题吗

或

可能是内存相关的问题吗？我正在使用hive.auto.convert.join.noconditionaltask=true。它会导致网络流量过大吗

下面是日志片段，提前感谢

 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_183782727_8787_m_000000_1 TaskAttempt Transitioned from NEW to UNASSIGNED
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: 2 failures on node node3
 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_876576567_8787_m_000001_1 TaskAttempt Transitioned from NEW to UNASSIGNED
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Added attempt_8787483787847_9124_m_000000_1 to list of failed maps
 INFO [Thread-50] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Added attempt_8787483787847_9124_m_000000_1 to list of failed maps
 INFO [Socket Reader #1 for port 46764] org.apache.hadoop.ipc.Server: Socket Reader #1 for port 46764: readAndProcess from client 160.43.98.11 threw exception [java.io.IOException: Connection reset by peer]
java.io.IOException: Connection reset by peer
 at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
 at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
 at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
 at sun.nio.ch.IOUtil.read(IOUtil.java:197)
 at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
 at org.apache.hadoop.ipc.Server.channelRead(Server.java:2603)
 at org.apache.hadoop.ipc.Server.access$2800(Server.java:136)
 at org.apache.hadoop.ipc.Server$Connection.readAndProcess(Server.java:1481)
 at org.apache.hadoop.ipc.Server$Listener.doRead(Server.java:771)
 at org.apache.hadoop.ipc.Server$Listener$Reader.doRunLoop(Server.java:637)
 at org.apache.hadoop.ipc.Server$Listener$Reader.run(Server.java:608)
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor: getResources() for application_8787483787847_9124: ask=1 release= 0 newContainers=0 finishedContainers=0 resourcelimit=<memory:146608, vCores:1> knownNMs=5
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_8787483787847_9124_01_000002
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Received completed container container_8787483787847_9124_01_000003
 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Before Scheduling: PendingReds:0 ScheduledMaps:2 ScheduledReds:0 AssignedMaps:2 AssignedReds:0 CompletedMaps:0 CompletedReds:0 ContAlloc:2 ContRel:0 HostLocal:1 RackLocal:1
 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_8787483787847_9124_m_000000_1: Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_8787483787847_9124_m_000000_1: Container killed by the ApplicationMaster.
INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Got allocated containers 2
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

INFO[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_183782727_8787_m_000000_1 tasktrunt从新任务转换为未分配任务
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor:节点3上发生2次故障
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_876576567_8787_m_000001_1 tasktrunt从新任务转换为未分配任务
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:将尝试添加到失败映射列表中
信息[Thread-50]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:将尝试添加到失败映射列表中
INFO[Socket Reader#1用于端口46764]org.apache.hadoop.ipc.Server:Socket Reader#1用于端口46764:readAndProcess from client 160.43.98.11引发异常[java.io.IOException:Connection reset by peer]
java.io.IOException:对等方重置连接
位于sun.nio.ch.FileDispatcherImpl.read0（本机方法）
位于sun.nio.ch.SocketDispatcher.read（SocketDispatcher.java:39）
位于sun.nio.ch.IOUtil.readIntoNativeBuffer（IOUtil.java:223）
位于sun.nio.ch.IOUtil.read（IOUtil.java:197）
在sun.nio.ch.socketchannelmpl.read（socketchannelmpl.java:380）
位于org.apache.hadoop.ipc.Server.channelRead（Server.java:2603）
位于org.apache.hadoop.ipc.Server.access$2800（Server.java:136）
位于org.apache.hadoop.ipc.Server$Connection.readAndProcess（Server.java:1481）
位于org.apache.hadoop.ipc.Server$Listener.doRead（Server.java:771）
位于org.apache.hadoop.ipc.Server$Listener$Reader.dorunoop（Server.java:637）
位于org.apache.hadoop.ipc.Server$Listener$Reader.run（Server.java:608）
INFO[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerRequestor:getResources（）用于应用程序
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已收到完整的容器容器_87483787847_9124_01_000002
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已收到完整的容器\u 87483787847\u 9124\u 01\u000003
信息[RMCommunicator Allocator]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:在调度之前：PendingReds:0 ScheduledMaps:2 ScheduledRedes:0 AssignedMaps:2 AssignedReds:0 CompletedReds:0 ContAlloc:2 ContRel:0 HostLocal:1 RackLocal:1
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自尝试的诊断报告\u 87483787847\u 9124\u m\u000000\u 1:容器被应用程序管理员杀死。
集装箱在要求时被杀死。出口代码是143
容器以非零退出代码143退出
信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自尝试的诊断报告\u 87483787847\u 9124\u m\u000000\u 1:容器被应用程序管理员杀死。
信息[RMCommunicator分配器]org.apache.hadoop.mapreduce.v2.app.rm.rmContainerLocator:已分配容器2
集装箱在要求时被杀死。出口代码是143
容器以非零退出代码143退出

“有时会出现此错误，数据节点会重新启动”——您的意思是您的查询会触发DN崩溃？或者您遇到了随机DN崩溃，一些作业（包括您的查询）丢失了一些控制器？如果您确实重新启动了服务器，请调查该计算机上的Linux服务器日志。如果您的意思是DataNode服务死亡，必须重新启动，那么请调查该计算机上的服务日志。@SamsonScharfrichter感谢您的回复，我从Linux管理员那里了解到，如果CPU负载超过75%，服务器将配置为软重新启动。我不知道这个配置。什么？？？看在上帝的份上，HDFS是一个文件系统！当硬盘已满75%时，他们会怎么做：他们会将硬盘从服务器中取出并将其敲碎吗？“有时会出现此错误，数据节点会重新启动”——您的意思是您的查询会触发DN崩溃？或者您遇到了随机DN崩溃，一些作业（包括您的查询）丢失了一些控制器？如果您确实重新启动了服务器，请调查该计算机上的Linux服务器日志。如果您的意思是DataNode服务死亡，必须重新启动，那么请调查该计算机上的服务日志。@SamsonScharfrichter感谢您的回复，我从Linux管理员那里了解到，如果CPU负载超过75%，服务器将配置为软重新启动。我不知道这个配置。什么？？？看在上帝的份上，HDFS是一个文件系统！当硬盘已满75%时，他们会怎么做：他们会将硬盘从服务器中取出并将其敲碎吗？？？