Hadoop洗牌问题
我刚刚学习了这本书。我对最重要的过程有几个问题:洗牌Hadoop洗牌问题,hadoop,shuffle,Hadoop,Shuffle,我刚刚学习了这本书。我对最重要的过程有几个问题:洗牌 排序、分区和合并的时间顺序 映射器的输出可能是几个还原器的输入。从书中我们知道,映射器将首先将其输出写入其内存缓冲区。在将缓冲区溢出到磁盘之前,将进行排序和分区。我想及时了解它们的顺序。我的推断是:在结果溢出到dist之前,执行分区以确定输出属于哪个减缩器。然后,对于每个分区,分别执行排序方法(我知道,它是快速排序)。当缓冲区已满或达到阈值时,则溢出到磁盘 每个溢出文件和合并文件属于每个减速器还是多减速器 同样,根据这本书,当溢出的文件太多时