Java 一个Mapper类Hadoop中有多个输入文件？_Java_Hadoop_Mapreduce

Java 一个Mapper类Hadoop中有多个输入文件？

java hadoop mapreduce

Java 一个Mapper类Hadoop中有多个输入文件？,java,hadoop,mapreduce,Java,Hadoop,Mapreduce,所以，我尝试在MapReduce范例中编写FP树算法，对于创建频繁项目集列表，我有以下问题：输入： File1.txt（包含所有事务） File2.txt（包含按降序购买的项目）输出： output.txt 123 221 123 77 354 [2nd transaction is eliminated] 根据计数的项目被接收（降序），其他项目被删除是否可以将File1.txt和File2.txt合并到一个映射器类中？因为这会解决我的问题或者是否有其他方法来执行此操作非

所以，我尝试在MapReduce范例中编写FP树算法，对于创建频繁项目集列表，我有以下问题：

输入：

File1.txt（包含所有事务）

File2.txt（包含按降序购买的项目）

输出：

output.txt

123 221  
123 77 354 

[2nd transaction is eliminated]

根据计数的项目被接收（降序），其他项目被删除

是否可以将File1.txt和File2.txt合并到一个映射器类中？因为这会解决我的问题

或者是否有其他方法来执行此操作

非常感谢您的帮助。

查看mapreduce分布式缓存示例。可能有完整帮助

阅读安装方法中的文件。上面的链接将提供良好的指导

您可以在一个MR程序中读取多个文件。但是每个文件应该分别有一个映射器类。由于两个输入文件不同，因此这两个文件的读取逻辑都不同。您可以有两个映射器，每个映射器一个，并且该映射器的输出应该具有相同的键并传递给reducer

分布式缓存只有在其中一个文件大小很小且可以放入RAM时才有用。

12    123

6     221

5     77

4     354

[Count] [Item Id]

output.txt

123 221  
123 77 354 

[2nd transaction is eliminated]