Python 如何从几个仅映射任务创建单个分布式内存映射?

Python 如何从几个仅映射任务创建单个分布式内存映射?,python,hadoop,mapreduce,hadoop-streaming,Python,Hadoop,Mapreduce,Hadoop Streaming,我有几个异构的输入,需要用不同的映射器来处理,以生成一个同质的映射,该映射随后可以通过单个缩减器的多个实例进行缩减。它能以一种比连接所有映射器的输出并将它们提供给id映射器更优雅的方式完成吗?id映射器只会发出与接收到的结果相同的结果?我使用的是Python Hadoop流式API,因此它比使用多输入Java接口要复杂一些。您需要的是多输入。您应该为不同的异构输入编写不同的映射器 在驱动程序中,您应该将不同的路径映射到各自的映射器 所有这些映射器都应将其各自的映射输出转换为标准输出,该输出将由减

我有几个异构的输入,需要用不同的映射器来处理,以生成一个同质的映射,该映射随后可以通过单个缩减器的多个实例进行缩减。它能以一种比连接所有映射器的输出并将它们提供给id映射器更优雅的方式完成吗?id映射器只会发出与接收到的结果相同的结果?我使用的是Python Hadoop流式API,因此它比使用多输入Java接口要复杂一些。

您需要的是多输入。您应该为不同的异构输入编写不同的映射器

在驱动程序中,您应该将不同的路径映射到各自的映射器

所有这些映射器都应将其各自的映射输出转换为标准输出,该输出将由减速器使用