Hadoop 映射任务超时

Hadoop 映射任务超时,hadoop,mapreduce,hbase,Hadoop,Mapreduce,Hbase,我编写了一个仅映射的作业,其中数据在经过一些处理后从一个HBase表写入另一个HBase表。但是,在我的映射器的设置方法中,我从一个比我的mapred.task.timeout配置花费更多时间的文件加载数据 我读了给出的解释。我的问题是, 1)在安装阶段中间,任务和任务跟踪器之间是否没有通信? 2) 如何更新状态字符串??只要有进展,作业就不会超时 进度报告很重要,因为Hadoop不会让正在取得进展的任务失败。以下所有操作均构成进度: •读取输入记录(在映射器或减速机中) •写入输出记录(在

我编写了一个仅映射的作业,其中数据在经过一些处理后从一个HBase表写入另一个HBase表。但是,在我的映射器的
设置
方法中,我从一个比我的
mapred.task.timeout
配置花费更多时间的文件加载数据

我读了给出的解释。我的问题是,

1)在安装阶段中间,任务和任务跟踪器之间是否没有通信?


2) 如何更新状态字符串??

只要有进展,作业就不会超时

进度报告很重要,因为Hadoop不会让正在取得进展的任务失败。以下所有操作均构成进度:

  • •读取输入记录(在映射器或减速机中)
  • •写入输出记录(在映射器或减速机中)
  • •设置报告者的状态描述(使用报告者的 setStatus()方法)
  • •递增计数器(使用Reporter的incrCounter()方法)
  • •调用Reporter的progress()方法
所以,如果你在一个正常的时间间隔内继续做这些事情,工作就不会被终止