Python 为mapper和reducer hadoop提供特定的输入文件_Python_Hadoop

Python 为mapper和reducer hadoop提供特定的输入文件

python hadoop

Python 为mapper和reducer hadoop提供特定的输入文件,python,hadoop,Python,Hadoop,假设我有3个输入文件A，B，C。我想要那个映射程序仅从分区器从映射器以及文件B和C获取输入 reducer从映射器（由分区器指定）和文件C获取输入这可以在Hadoop中实现吗另外，我正在使用Python和Hadoop流媒体唯一的方法是如果文件B和C非常小，那么您可以将它们放入distcache并在所有作业中提取它们。Hadoop中没有分区器作业。分区程序作为映射作业的一部分运行，因此每个映射程序都必须读取所有3个文件A、B和C 这同样适用于减速器零件。如果B和C文件非常大，那么您必须

假设我有3个输入文件A，B，C。我想要那个

映射程序仅从
分区器从映射器以及文件B和C获取输入
reducer从映射器（由分区器指定）和文件C获取输入

这可以在Hadoop中实现吗

另外，我正在使用Python和Hadoop流媒体

唯一的方法是如果文件B和C非常小，那么您可以将它们放入distcache并在所有作业中提取它们。Hadoop中没有分区器作业。分区程序作为映射作业的一部分运行，因此每个映射程序都必须读取所有3个文件A、B和C

这同样适用于减速器零件。如果B和C文件非常大，那么您必须检查您的数据流，并在单独的作业中组合A、B、C。无法解释如何操作，除非您分享有关处理的更多详细信息