hadoop中映射输出记录数小于合并输入记录数

hadoop中映射输出记录数小于合并输入记录数,hadoop,mapreduce,Hadoop,Mapreduce,当我运行mapreduce时,我得到的合并输入记录大于映射输出记录?这真奇怪。我搞不清楚到底发生了什么?据我所知,地图输出记录应该与输入记录完全相同。谁能帮我解决这个问题吗。提前谢谢 下面是一个真实的工作示例: Map-Reduce Framework Map input records=112705844 Map output records=64841776 Combine input records=64842079 Combine

当我运行mapreduce时,我得到的合并输入记录大于映射输出记录?这真奇怪。我搞不清楚到底发生了什么?据我所知,地图输出记录应该与输入记录完全相同。谁能帮我解决这个问题吗。提前谢谢

下面是一个真实的工作示例:

    Map-Reduce Framework
      Map input records=112705844
      Map output records=64841776
      Combine input records=64842079
      Combine output records=409
      Reduce input records=106
      Reduce output records=4

显然,组合器的应用方式从Hadoop 0.18开始发生了变化。之前,每个map任务只调用一次合并器。现在它可以在map和reduce端被调用0次或更多次。这表明组合器输入/输出记录的计数不必与map/reduce输入/输出计数精确匹配