用于hadoop的Dumbo mapreduce

用于hadoop的Dumbo mapreduce,hadoop,mapreduce,Hadoop,Mapreduce,我试图在hadoop集群上运行Dumbo MapReduce命令,但出现以下错误 15/03/02 17:55:28流式处理出错。StreamJob:作业未成功。错误:NA 15/03/02 17:55:28信息流。StreamJob:killJob。。。 流式处理命令失败 似乎我需要提供Hadoop流媒体jar的路径。 我怎样才能找到这个,什么是Hadoop流媒体jar 我的dumbo命令如下: dumbo启动测试\u dumbo6.py-hadoop/apps/hadoop/-input/s

我试图在hadoop集群上运行Dumbo MapReduce命令,但出现以下错误

15/03/02 17:55:28流式处理出错。StreamJob:作业未成功。错误:NA 15/03/02 17:55:28信息流。StreamJob:killJob。。。 流式处理命令失败

似乎我需要提供Hadoop流媒体jar的路径。 我怎样才能找到这个,什么是Hadoop流媒体jar

我的dumbo命令如下:


dumbo启动测试\u dumbo6.py-hadoop/apps/hadoop/-input/storage/user/jj/json.log-output ipcounts2

关于hadoop流媒体的文档:

Hadoop流媒体是Hadoop核心的一部分,因此应该在$Hadoop_HOME/lib目录中提供

可以通过添加其他参数将此库添加到作业中:

-libjar <path_to_jar>