Hadoop Map-reduce框架中Map阶段的实现_Hadoop_Mapreduce

Hadoop Map-reduce框架中Map阶段的实现

hadoop mapreduce

Hadoop Map-reduce框架中Map阶段的实现,hadoop,mapreduce,Hadoop,Mapreduce,我搜索了很多，我知道在每个映射任务中，当缓冲区的内容达到阈值时，线程会根据reduces的数量对数据进行分区。reduce numbers在这里的作用是什么？为什么分区会发生在映射中？它如何帮助映射阶段？排序后，线程会将内容溢出到磁盘。这是怎么发生的？我无法理解在这里泼洒的意思。。。。。谢谢。当还原程序轮询并从每个映射程序中提取与还原程序相关的所有数据时，Map需要对数据进行分区如果你想象另一种情况——减速器从每个贴图中提取所有输出，那么你将从每个贴图器向每个减速器发送所有数据输出——效率

我搜索了很多，我知道在每个映射任务中，当缓冲区的内容达到阈值时，线程会根据reduces的数量对数据进行分区。reduce numbers在这里的作用是什么？为什么分区会发生在映射中？它如何帮助映射阶段？排序后，线程会将内容溢出到磁盘。这是怎么发生的？我无法理解在这里泼洒的意思。。。。。

谢谢。

当还原程序轮询并从每个映射程序中提取与还原程序相关的所有数据时，Map需要对数据进行分区

如果你想象另一种情况——减速器从每个贴图中提取所有输出，那么你将从每个贴图器向每个减速器发送所有数据输出——效率极低

因此，通过在映射器中进行分区，reducer能够查询并从每个映射器中提取需要缩减的数据