hadoop中映射输出记录数小于合并输入记录数
当我运行mapreduce时,我得到的合并输入记录大于映射输出记录?这真奇怪。我搞不清楚到底发生了什么?据我所知,地图输出记录应该与输入记录完全相同。谁能帮我解决这个问题吗。提前谢谢 下面是一个真实的工作示例:hadoop中映射输出记录数小于合并输入记录数,hadoop,mapreduce,Hadoop,Mapreduce,当我运行mapreduce时,我得到的合并输入记录大于映射输出记录?这真奇怪。我搞不清楚到底发生了什么?据我所知,地图输出记录应该与输入记录完全相同。谁能帮我解决这个问题吗。提前谢谢 下面是一个真实的工作示例: Map-Reduce Framework Map input records=112705844 Map output records=64841776 Combine input records=64842079 Combine
Map-Reduce Framework
Map input records=112705844
Map output records=64841776
Combine input records=64842079
Combine output records=409
Reduce input records=106
Reduce output records=4
显然,组合器的应用方式从Hadoop 0.18开始发生了变化。之前,每个map任务只调用一次合并器。现在它可以在map和reduce端被调用0次或更多次。这表明组合器输入/输出记录的计数不必与map/reduce输入/输出计数精确匹配