Hadoop MapReduce WordCount示例提供了两个映射器v2.5.1

Hadoop MapReduce WordCount示例提供了两个映射器v2.5.1,hadoop,mapreduce,Hadoop,Mapreduce,当我阅读Hadoop MapReduce教程时,它提到了以下内容: 对于给定的示例输入,第一个贴图将发出: 第二张地图发出:< Hadoop,1> 我们如何确保第一个输入文件将由一个映射器处理,第二个映射器将由另一个映射器处理?还是仅仅是一种假设?简短回答: 一个映射程序不能处理多个文件。所以,对于两个文件,我们至少需要两个映射器 较长(但仍简化)回答: 一个映射程序只处理一个输入拆分。一个文件至少创建一个输入拆分。因此,两个文件至少创建两个输入拆分,因此由两个映射器处理 例如,如果一个文件的

当我阅读Hadoop MapReduce教程时,它提到了以下内容:

对于给定的示例输入,第一个贴图将发出:

第二张地图发出:<再见,1>< Hadoop,1>


我们如何确保第一个输入文件将由一个映射器处理,第二个映射器将由另一个映射器处理?还是仅仅是一种假设?

简短回答:
一个映射程序不能处理多个文件。所以,对于两个文件,我们至少需要两个映射器

较长(但仍简化)回答:
一个映射程序只处理一个输入拆分。一个文件至少创建一个输入拆分。因此,两个文件至少创建两个输入拆分,因此由两个映射器处理

例如,如果一个文件的大小大于一个块的大小,那么它可以被分割成更多的分区。块的默认大小是(在当前版本中)128MB(在以前的版本中是64MB)。如果文件大于128MB,则会产生多个输入拆分。因此,即使是同一个文件也可以由两个或多个映射器处理。这由InputFormat(读取)决定


我很高兴它起了作用。