Hadoop 地图边连接如何分割输入文件

Hadoop 地图边连接如何分割输入文件,hadoop,mapreduce,Hadoop,Mapreduce,如果我有两个输入文件夹,每个文件夹包含100个输入文件,并且我使用了map-side-join。我想知道hadoop将创建多少映射器任务。当我们使用map-side-join时,hadoop如何分割输入文件 Map-side连接每个边上正好有100个文件,将生成100个Map任务。Hadoop创建映射器的数量=输入拆分的数量。它不取决于您使用的是Map-side连接还是reduce-side连接。如果你想控制映射程序的数量,然后创建一个自定义的inputformat和一个自定义的recordre

如果我有两个输入文件夹,每个文件夹包含100个输入文件,并且我使用了map-side-join。我想知道hadoop将创建多少映射器任务。当我们使用map-side-join时,hadoop如何分割输入文件

Map-side连接每个边上正好有100个文件,将生成100个Map任务。

Hadoop创建映射器的数量=输入拆分的数量。它不取决于您使用的是Map-side连接还是reduce-side连接。如果你想控制映射程序的数量,然后创建一个自定义的inputformat和一个自定义的recordreaderno,map-SideJoin很特别,我正在研究compositeinputformat类。映射器的数量取决于输入文件的数量,而不是拆分。谢谢