Java 如何在具有多个输入的映射器中获取文档ID
我正在使用Java中的Hadoop编写一个TF-IDF(没有Pig或Hive)用于学习目的。我将把它分成三个部分:单词数,每个文档的单词数,最后是每个单词的文档数 我相信工作的主链是正确的,但是我有一个问题:在我的第一轮中,如何在映射器中获取文档Id?我有以下多个输入:Java 如何在具有多个输入的映射器中获取文档ID,java,hadoop,mapreduce,tf-idf,Java,Hadoop,Mapreduce,Tf Idf,我正在使用Java中的Hadoop编写一个TF-IDF(没有Pig或Hive)用于学习目的。我将把它分成三个部分:单词数,每个文档的单词数,最后是每个单词的文档数 我相信工作的主链是正确的,但是我有一个问题:在我的第一轮中,如何在映射器中获取文档Id?我有以下多个输入: Path doc1 = new Path(System.getProperty("user.dir") + "/1.dat"); Path doc2 = new Path(System.getProperty("
Path doc1 = new Path(System.getProperty("user.dir") + "/1.dat");
Path doc2 = new Path(System.getProperty("user.dir") + "/2.dat");
Path doc3 = new Path(System.getProperty("user.dir") + "/3.dat");
MultipleInputs.addInputPath(job1, doc1, TextInputFormat.class, MapperRoundOne.class);
MultipleInputs.addInputPath(job1, doc2, TextInputFormat.class, MapperRoundOne.class);
MultipleInputs.addInputPath(job1, doc3, TextInputFormat.class, MapperRoundOne.class);
- 第1轮:
- 映射器{docID=>[words]}-->{[word,docID]=>1}
- 缩减器{[word,docId]=>[1,1,…]}-->{[word,docId]=>wordCount}
name = ((FileSplit)context.getInputSplit()).getPath().toString();
提及
而且
HTH谢谢!真正对我有用的是这个答案: