Mapreduce 分区数据映射/减少

Mapreduce 分区数据映射/减少,mapreduce,partitioning,Mapreduce,Partitioning,我已经为分区数据集编写了自定义分区器。我希望使用相同的分区器对两个数据集进行分区,然后在下一个mapreduce作业中,我希望每个映射器处理来自两个源的相同分区,并执行一些功能,如连接等。我如何确保一个映射器从两个源获得对应于相同分区的分区 任何帮助都将不胜感激。您所描述的是地图侧连接的一种变体。Pro Hadoop或org.apache.Hadoop.mapred.join的第8章您所描述的是映射端连接的一种变体。Pro Hadoop或org.apache.Hadoop.mapred.join

我已经为分区数据集编写了自定义分区器。我希望使用相同的分区器对两个数据集进行分区,然后在下一个mapreduce作业中,我希望每个映射器处理来自两个源的相同分区,并执行一些功能,如连接等。我如何确保一个映射器从两个源获得对应于相同分区的分区


任何帮助都将不胜感激。

您所描述的是地图侧连接的一种变体。Pro Hadoop或org.apache.Hadoop.mapred.join的第8章

您所描述的是映射端连接的一种变体。Pro Hadoop或org.apache.Hadoop.mapred.join的第8章