Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
指定Hadoop进程拆分_Hadoop_Mapreduce - Fatal编程技术网

指定Hadoop进程拆分

指定Hadoop进程拆分,hadoop,mapreduce,Hadoop,Mapreduce,我想在文本文件的一小部分上运行Hadoop MapReduce 我的任务之一就是失败。我可以在日志中看到: 处理拆分:hdfs://localhost:8020/user/martin/history/history.xml:3556769792+67108864 我可以在此文件上从偏移量3556769792到3623878656(3556769792+67108864)再次执行MapReduce吗?一种方法是从偏移量定义复制文件并将其添加回HDFS。从此点开始,只需在此块上运行mapreduc

我想在文本文件的一小部分上运行Hadoop MapReduce

我的任务之一就是失败。我可以在日志中看到:

处理拆分:hdfs://localhost:8020/user/martin/history/history.xml:3556769792+67108864


我可以在此文件上从偏移量3556769792到3623878656(3556769792+67108864)再次执行MapReduce吗?

一种方法是从偏移量定义复制文件并将其添加回HDFS。从此点开始,只需在此块上运行mapreduce作业

1) 从偏移量3556769792复制文件,后跟67108864:

dd if=history.xml bs=1 skip=3556769792 count=67108864> history\u offset.xml

2) 导入到HDFS中

hadoop fs-copyFromLocal history\u offset.xml offset/history\u offset.xml

3) 再次运行MapReduce

hadoop jar myJar.jar“偏移量”“偏移量输出”