在Hadoop中,在洗牌阶段,还原程序在哪里复制其输入

在Hadoop中,在洗牌阶段,还原程序在哪里复制其输入,hadoop,mapreduce,Hadoop,Mapreduce,在Hadoop中,映射器的输出在洗牌阶段被复制到还原器。reducer必须从不同的映射器复制相应的分区。在开始实际的reduce过程之前,reducer在哪里存储其输入 映射输出被复制到reduce任务JVM的内存中(如果有) 足够小(缓冲区的大小由 mapred.job.shuffle.input.buffer.percent,指定 用于此目的的堆的比例);否则,它们就是 复制到磁盘。内存缓冲区达到阈值大小时 (由mapred.job.shuffle.merge.percent控制)或达到 阈

在Hadoop中,映射器的输出在洗牌阶段被复制到还原器。reducer必须从不同的映射器复制相应的分区。在开始实际的reduce过程之前,reducer在哪里存储其输入

映射输出被复制到reduce任务JVM的内存中(如果有) 足够小(缓冲区的大小由 mapred.job.shuffle.input.buffer.percent,指定 用于此目的的堆的比例);否则,它们就是 复制到磁盘。内存缓冲区达到阈值大小时 (由mapred.job.shuffle.merge.percent控制)或达到 阈值映射输出数(mapred.inmem.merge.threshold),它是 合并并溢出到磁盘。如果指定了组合器,则将运行该组合器 在合并期间减少写入磁盘的数据量

参考-Hadoop最终指南