Python 为mapper和reducer hadoop提供特定的输入文件

Python 为mapper和reducer hadoop提供特定的输入文件,python,hadoop,Python,Hadoop,假设我有3个输入文件A,B,C。我想要那个 映射程序仅从 分区器从映射器以及文件B和C获取输入 reducer从映射器(由分区器指定)和文件C获取输入 这可以在Hadoop中实现吗 另外,我正在使用Python和Hadoop流媒体唯一的方法是如果文件B和C非常小,那么您可以将它们放入distcache并在所有作业中提取它们。Hadoop中没有分区器作业。分区程序作为映射作业的一部分运行,因此每个映射程序都必须读取所有3个文件A、B和C 这同样适用于减速器零件。如果B和C文件非常大,那么您必须

假设我有3个输入文件A,B,C。我想要那个

  • 映射程序仅从
  • 分区器从映射器以及文件B和C获取输入
  • reducer从映射器(由分区器指定)和文件C获取输入
这可以在Hadoop中实现吗


另外,我正在使用Python和Hadoop流媒体

唯一的方法是如果文件B和C非常小,那么您可以将它们放入distcache并在所有作业中提取它们。Hadoop中没有分区器作业。分区程序作为映射作业的一部分运行,因此每个映射程序都必须读取所有3个文件A、B和C

这同样适用于减速器零件。如果B和C文件非常大,那么您必须检查您的数据流,并在单独的作业中组合A、B、C。无法解释如何操作,除非您分享有关处理的更多详细信息