在Hadoop流媒体中设置numReduceTasks=0时,o/p中缺少记录

在Hadoop流媒体中设置numReduceTasks=0时,o/p中缺少记录,hadoop,mapreduce,hadoop-streaming,Hadoop,Mapreduce,Hadoop Streaming,正如标题中已经提到的,您能否提出可能存在的问题 命令 hadoop-jar/usr/lib/hadoop/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\ -输入/usr/pkansal/ex2/output\ -输出/usr/pkansal/ex2/output2\ -mapper/home/cloudera/ex2/kMerFreqMap2.py\ -文件/home/cloudera/ex2/kMerFreqMap2.py\ -num

正如标题中已经提到的,您能否提出可能存在的问题

命令 hadoop-jar/usr/lib/hadoop/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\

-输入/usr/pkansal/ex2/output\

-输出/usr/pkansal/ex2/output2\

-mapper/home/cloudera/ex2/kMerFreqMap2.py\

-文件/home/cloudera/ex2/kMerFreqMap2.py\

-numReduceTasks 0如果我对这行进行评论,那么一切都会好起来

I/P 3:chr1:1,chr1:3,chr1:5

1:1:7

2:1:2,1:4

1:1:6

预期O/P CHR113

chr1 3 3

chr1 5 3

chr1 7 1

chr1 2

chr1 4 2

chr1 6 1

实际O/P chr1 2

chr1 4 2


chr1 6 1

由于未指定减速机,因此它应默认为标识减速机,并且减速机0或N的值不应产生任何差异。除了0个减速机之外,作业的o/p不会被排序和其他方式。@PraveenSripati:我知道它将默认为标识减速机,因此o/p不会被排序。但是,它不能解释丢失记录的原因。。。