如何防止因reduce任务失败而导致hadoop作业失败

如何防止因reduce任务失败而导致hadoop作业失败,hadoop,mapreduce,elastic-map-reduce,Hadoop,Mapreduce,Elastic Map Reduce,我在AWS EMR hadoop 2.2.0版本中运行了一个s3distcp作业。并且作业保持失败,在尝试3次后,还原器任务失败。我还尝试了两种方法: mapred.max.reduce.failures.percent mapreduce.reduce.failures.maxpercent 对于ooziehadoopaction配置和mapred site.xml,使用50。但工作还是失败了 以下是日志: 2015-10-02 14:42:16001 INFO[main]org.apach

我在AWS EMR hadoop 2.2.0版本中运行了一个
s3distcp
作业。并且作业保持失败,在尝试3次后,还原器任务失败。我还尝试了两种方法:

mapred.max.reduce.failures.percent
mapreduce.reduce.failures.maxpercent
对于oozie
hadoop
action配置和
mapred site.xml
,使用50。但工作还是失败了

以下是日志:

2015-10-02 14:42:16001 INFO[main]org.apache.hadoop.mapreduce.Job: 任务Id:尝试_1443541526464_0115_r_000010_2,状态:失败 2015-10-02 14:42:17005信息[main]org.apache.hadoop.mapreduce.Job: 地图100%减少93%2015-10-02 14:42:29048信息[主要] org.apache.hadoop.mapreduce.Job:map 100%减少98%2015-10-02 15:04:20369信息[main]org.apache.hadoop.mapreduce.Job:map 100% 100%减少2015-10-02 15:04:21378信息[主要] org.apache.hadoop.mapreduce.Job:Job Job_1443541526464_0115失败 状态失败,原因是:任务失败Task_1443541526464_0115_r_000010 作业失败,因为任务失败。failedMaps:0 failedReduces:1

2015-10-02 15:04:21451信息[main]org.apache.hadoop.mapreduce.Job: 柜台:45 文件系统计数器 文件:读取的字节数=280 文件:写入的字节数=10512783 文件:读取操作数=0 文件:大型读取操作数=0 文件:写入操作数=0 HDFS:读取的字节数=32185011 HDFS:写入的字节数=0 HDFS:读取操作数=170 HDFS:大型读取操作数=0 HDFS:写入操作数=28 工作计数器 减少任务失败=4 已启动的地图任务=32 已启动的任务数=18 数据本地映射任务=15 机架本地地图任务=17 所有地图在占用的插槽中花费的总时间(毫秒)=2652786 占用的插槽中所有减少项所花费的总时间(毫秒)=65506584 Map-Reduce框架 地图输入记录=156810 地图输出记录=156810 映射输出字节=30892192 映射输出物化字节数=6583455 输入拆分字节=3904 合并输入记录=0 合并输出记录=0 减少输入组=0 减少洗牌字节数=7168 减少输入记录=0 减少输出记录=0 溢出记录=156810 随机映射=448 失败的洗牌=0 合并地图输出=448 失败的洗牌=0 合并地图输出=448 GC经过的时间(ms)=2524 所用CPU时间(毫秒)=108250 物理内存(字节)快照=14838984704 虚拟内存(字节)快照=106769969152 提交的堆使用总量(字节)=18048614400 洗牌错误 错误的\u ID=0 连接=0 IO_错误=0 错误的长度=0 错误的映射=0 错误的_REDUCE=0 文件输入格式计数器 读取字节数=32181107 文件输出格式计数器 写入字节数=0 2015-10-02 15:04:21451信息[main]com.amazon.external.elasticmapreduce.s3distcp.s3distcp:尝试 递归删除 hdfs:/tmp/218ad028-8035-4f97-b113-3cfea04502fc/tempspace 2015-10-02 15:04:21515信息[主要] org.apache.hadoop.io.compress.zlib.ZlibFactory:已成功加载& 初始化本机zlib库2015-10-02 15:04:21516信息[主] org.apache.hadoop.io.compress.codepool:获得了全新的压缩机 [deflate]2015-10-02 15:04:21554信息[主要] org.apache.hadoop.mapred.Task: 任务:完成尝试_1443541526464_0114_m_000000_0。而且是在 提交过程2015-10-02 15:04:21570信息[主要] org.apache.hadoop.mapred.Task:Task 现在允许提交尝试_1443541526464_0114_m_000000_0 2015-10-02 15:04:21584信息[主要] org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:已保存 任务'trunt_1443541526464_0114_m_000000_0'的输出到 hdfs://rnd2-emr-head.ec2.int$2015-10-02 15:04:21598信息[主要] org.apache.hadoop.mapred.Task:Task “尝试”已完成。2015-10-02 15:04:21,616 信息[Thread-6]amazon.emr.metrics.MetricsSaver:内置MetricsSaver 停堆钩


如果您有任何建议,我们将不胜感激。

您能试着清洁一下房间吗hdfs://tmp 目录只需备份目录,因为其他一些应用程序使用tmp目录,如果遇到任何问题,可以替换tmp目录

你能试着清洁一下房间吗hdfs://tmp 目录只需备份目录,因为其他一些应用程序使用tmp目录,如果遇到任何问题,可以替换tmp目录