我的hadoop作业在252小时后死亡(任务随后死亡)

我的hadoop作业在252小时后死亡(任务随后死亡),hadoop,Hadoop,我完成了81068项任务,但11799项任务失败,只有12项任务死亡。他们似乎都失败了 2013-09-10 03:07:36,316 INFO org.apache.hadoop.mapred.TaskInProgress: Error from attempt_201308301539_0002_m_083001_0: Error initializing attempt_201308301539_0002_m_083001_0: org.apache.hadoop.util.DiskCh

我完成了81068项任务,但11799项任务失败,只有12项任务死亡。他们似乎都失败了

2013-09-10 03:07:36,316 INFO org.apache.hadoop.mapred.TaskInProgress: Error from  attempt_201308301539_0002_m_083001_0: Error initializing attempt_201308301539_0002_m_083001_0:
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/jobcache/job_201308301539_0002/work in any of the configured local directories
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathToRead(LocalDirAllocator.java:389)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathToRead(LocalDirAllocator.java:138)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.localizeTask(TaskTracker.java:1817)
    at org.apache.hadoop.mapred.TaskTracker$TaskInProgress.launchTask(TaskTracker.java:1933)
    at org.apache.hadoop.mapred.TaskTracker.launchTaskForJob(TaskTracker.java:830)
    at org.apache.hadoop.mapred.TaskTracker.localizeJob(TaskTracker.java:824)
    at org.apache.hadoop.mapred.TaskTracker.startNewTask(TaskTracker.java:1664)
    at org.apache.hadoop.mapred.TaskTracker.access$1200(TaskTracker.java:97)
    at org.apache.hadoop.mapred.TaskTracker$TaskLauncher.run(TaskTracker.java:1629)
在这一点上,我只是在寻找如何在重新运行之前调试它的指导。出于某种原因,在集群中,看起来所有的文件都被删除了,尽管我认为hadoop M/R只删除了成功的任务日志

有人对如何进一步调试这个问题有一些建议/想法吗

似乎使用了map/reduce的所有默认目录/tmp/hadoop hduser用于我的hduser

我在/etc/hosts上看到过一些东西,但我不明白为什么81000个任务在最终失败之前成功了

我正在使用web界面获取一些信息,当然还有一些Hadoop安装的日志/logs

谢谢, 院长