Java hadoop mapreduce teragen失败\u容器\u清理

Java hadoop mapreduce teragen失败\u容器\u清理,java,apache,hadoop,mapreduce,yarn,Java,Apache,Hadoop,Mapreduce,Yarn,我的hadoop集群遇到了一些问题。 我试着用它做一些基准测试来检查它的性能,看看mapreduce是否工作得很好,但我得到了一些奇怪的beahviours。 事实上,mapreduce正在开始并处理其映射阶段,但我从中得到了一些错误: 我首先使用teragen创建数据: $ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data 然后

我的hadoop集群遇到了一些问题。 我试着用它做一些基准测试来检查它的性能,看看mapreduce是否工作得很好,但我得到了一些奇怪的beahviours。 事实上,mapreduce正在开始并处理其映射阶段,但我从中得到了一些错误: 我首先使用teragen创建数据:

$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 500 random-data
然后作业开始了,我在没有停止进程的情况下遇到了一些失败:

17/02/23 12:29:27 INFO client.RMProxy:通过/172.16.138.145:8032连接到ResourceManager

17/02/23 12:29:28信息terasort.terasort:使用2生成500

17/02/23 12:29:28信息mapreduce.JobSubmitter:拆分数:2

17/02/23 12:29:28信息mapreduce.JobSubmitter:为作业提交令牌:job_1487846108320_0007

17/02/23 12:29:28信息建议客户建议:已提交申请申请

17/02/23 12:29:28信息mapreduce.作业:跟踪作业的url:

17/02/23 12:29:28信息mapreduce.作业:正在运行作业:作业1487846108320

17/02/23 12:29:34信息mapreduce.作业:作业作业在uber模式下运行:false

17/02/23 12:29:34信息地图还原。作业:地图0%还原0%

17/02/23 12:29:47信息mapreduce.作业:任务Id: 尝试_1487846108320_0007_m_000001_0,状态:失败

17/02/23 12:29:48信息mapreduce.作业:任务Id:尝试,状态:失败

17/02/23 12:30:02信息地图还原。作业:地图50%还原0%

17/02/23 12:30:02信息mapreduce。作业:任务Id:尝试,状态:失败

17/02/23 12:30:03信息地图还原。作业:地图0%还原0%

17/02/23 12:30:03信息mapreduce。作业:任务Id:尝试,状态:失败

17/02/23 12:30:15信息mapreduce.作业:任务Id:尝试\u 1487846108320\u 0007\u m\u000001\u 2,状态:失败

17/02/23 12:30:16信息mapreduce.作业:任务Id:尝试\u 1487846108320\u 0007\u m\u000000\u 2,状态:失败

17/02/23 12:30:30信息地图还原。作业:地图100%还原0%

17/02/23 12:30:31信息mapreduce.Job:Job Job_1487846108320_0007失败,状态失败,原因是:任务失败Task_1487846108320_0007_000001

作业失败,因为任务失败。failedMaps:1 failedReduces:0

我检查了相关datanode中的日志,发现每次失败都会重复以下几行:

2017-02-23 11:36:12901信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_1487846108320_0001_m_000001_1_任务尝试从运行转换为失败容器清理

2017-02-23 11:36:12901信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:来自尝试的诊断报告

2017-02-23 11:36:12902信息[ContainerLauncher#5]org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:处理事件事件类型:容器远程清理容器容器

2017-02-23 11:36:12903信息[ContainerLauncher#5]org.apache.hadoop.mapreduce.v2.app.launcher.ContainerLauncherImpl:杀人企图

2017-02-23 11:36:12903信息[ContainerLauncher#5]org.apache.hadoop.warn.client.api.impl.ContainerManagementProtocolProxy:Opening proxy:Datanode3:34121

2017-02-23 11:36:12923信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_1487846108320_0001_m_000001_1_任务trunt从容器清理失败转换为任务清理失败

2017-02-23 11:36:12924信息[CommitterEventProcessor#2]org.apache.hadoop.mapreduce.v2.app.commit.CommitterEventHandler:处理事件事件类型:任务中止

2017-02-23 11:36:12932警告[CommitterEventProcessor#2]org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:无法删除hdfs://172.16.138.145:9000/user/hdfs/random-dataSmallV7.7//u temporary/1//u temporary/trust\u 1487846108320\u 0001\u m\u 000001\u 1

2017-02-23 11:36:12932信息[AsyncDispatcher事件处理程序]org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl:trunt_1487846108320_0001_m_000001_1_任务尝试从失败任务清理转换为失败

在这种情况下,作业失败,但有时我会收到错误,但作业将成功。(很少) 你知道清理失败的原因吗?或者这个问题的潜在原因是什么? 在这里,它只使用映射器,没有请求减缩器,但是当减缩器涉及到其他情况时,也会发生错误

提前感谢您的想法。

我终于解决了这个问题。 我在一些/etc/hosts文件中有一行引用了我的节点: 127.0.1.1数据节点1

我用我的机器的FQDN替换了此行: 172.16.138.147数据节点1

这允许hadoop找到我的服务器的引用并修复此错误

我希望这能帮助别人。

我终于解决了这个问题。 我在一些/etc/hosts文件中有一行引用了我的节点: 127.0.1.1数据节点1

我用我的机器的FQDN替换了此行: 172.16.138.147数据节点1

这允许hadoop找到我的服务器的引用并修复此错误

我希望这能帮助其他人