如何防止因reduce任务失败而导致hadoop作业失败
我在AWS EMR hadoop 2.2.0版本中运行了一个如何防止因reduce任务失败而导致hadoop作业失败,hadoop,mapreduce,elastic-map-reduce,Hadoop,Mapreduce,Elastic Map Reduce,我在AWS EMR hadoop 2.2.0版本中运行了一个s3distcp作业。并且作业保持失败,在尝试3次后,还原器任务失败。我还尝试了两种方法: mapred.max.reduce.failures.percent mapreduce.reduce.failures.maxpercent 对于ooziehadoopaction配置和mapred site.xml,使用50。但工作还是失败了 以下是日志: 2015-10-02 14:42:16001 INFO[main]org.apach
s3distcp
作业。并且作业保持失败,在尝试3次后,还原器任务失败。我还尝试了两种方法:
mapred.max.reduce.failures.percent
mapreduce.reduce.failures.maxpercent
对于ooziehadoop
action配置和mapred site.xml
,使用50。但工作还是失败了
以下是日志:
2015-10-02 14:42:16001 INFO[main]org.apache.hadoop.mapreduce.Job:
任务Id:尝试_1443541526464_0115_r_000010_2,状态:失败
2015-10-02 14:42:17005信息[main]org.apache.hadoop.mapreduce.Job:
地图100%减少93%2015-10-02 14:42:29048信息[主要]
org.apache.hadoop.mapreduce.Job:map 100%减少98%2015-10-02
15:04:20369信息[main]org.apache.hadoop.mapreduce.Job:map 100%
100%减少2015-10-02 15:04:21378信息[主要]
org.apache.hadoop.mapreduce.Job:Job Job_1443541526464_0115失败
状态失败,原因是:任务失败Task_1443541526464_0115_r_000010
作业失败,因为任务失败。failedMaps:0 failedReduces:1
2015-10-02 15:04:21451信息[main]org.apache.hadoop.mapreduce.Job:
柜台:45
文件系统计数器
文件:读取的字节数=280
文件:写入的字节数=10512783
文件:读取操作数=0
文件:大型读取操作数=0
文件:写入操作数=0
HDFS:读取的字节数=32185011
HDFS:写入的字节数=0
HDFS:读取操作数=170
HDFS:大型读取操作数=0
HDFS:写入操作数=28
工作计数器
减少任务失败=4
已启动的地图任务=32
已启动的任务数=18
数据本地映射任务=15
机架本地地图任务=17
所有地图在占用的插槽中花费的总时间(毫秒)=2652786
占用的插槽中所有减少项所花费的总时间(毫秒)=65506584
Map-Reduce框架
地图输入记录=156810
地图输出记录=156810
映射输出字节=30892192
映射输出物化字节数=6583455
输入拆分字节=3904
合并输入记录=0
合并输出记录=0
减少输入组=0
减少洗牌字节数=7168
减少输入记录=0
减少输出记录=0
溢出记录=156810
随机映射=448
失败的洗牌=0
合并地图输出=448
失败的洗牌=0
合并地图输出=448
GC经过的时间(ms)=2524
所用CPU时间(毫秒)=108250
物理内存(字节)快照=14838984704
虚拟内存(字节)快照=106769969152
提交的堆使用总量(字节)=18048614400
洗牌错误
错误的\u ID=0
连接=0
IO_错误=0
错误的长度=0
错误的映射=0
错误的_REDUCE=0
文件输入格式计数器
读取字节数=32181107
文件输出格式计数器
写入字节数=0 2015-10-02 15:04:21451信息[main]com.amazon.external.elasticmapreduce.s3distcp.s3distcp:尝试
递归删除
hdfs:/tmp/218ad028-8035-4f97-b113-3cfea04502fc/tempspace 2015-10-02
15:04:21515信息[主要]
org.apache.hadoop.io.compress.zlib.ZlibFactory:已成功加载&
初始化本机zlib库2015-10-02 15:04:21516信息[主]
org.apache.hadoop.io.compress.codepool:获得了全新的压缩机
[deflate]2015-10-02 15:04:21554信息[主要]
org.apache.hadoop.mapred.Task:
任务:完成尝试_1443541526464_0114_m_000000_0。而且是在
提交过程2015-10-02 15:04:21570信息[主要]
org.apache.hadoop.mapred.Task:Task
现在允许提交尝试_1443541526464_0114_m_000000_0
2015-10-02 15:04:21584信息[主要]
org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:已保存
任务'trunt_1443541526464_0114_m_000000_0'的输出到
hdfs://rnd2-emr-head.ec2.int$2015-10-02 15:04:21598信息[主要]
org.apache.hadoop.mapred.Task:Task
“尝试”已完成。2015-10-02 15:04:21,616
信息[Thread-6]amazon.emr.metrics.MetricsSaver:内置MetricsSaver
停堆钩
如果您有任何建议,我们将不胜感激。您能试着清洁一下房间吗hdfs://tmp 目录只需备份目录,因为其他一些应用程序使用tmp目录,如果遇到任何问题,可以替换tmp目录 你能试着清洁一下房间吗hdfs://tmp 目录只需备份目录,因为其他一些应用程序使用tmp目录,如果遇到任何问题,可以替换tmp目录