Hadoop 多个输入文件Mapreduce Wordcount示例分别完成_Hadoop_Mapreduce

Hadoop 多个输入文件Mapreduce Wordcount示例分别完成

hadoop mapreduce

Hadoop 多个输入文件Mapreduce Wordcount示例分别完成,hadoop,mapreduce,Hadoop,Mapreduce,我正在研究Hadoop framework for Mapreduce模型，并实际试用了WordCount、Max_temperature等基本示例，以便为我的项目创建一个Mapreduce任务。我只想知道如何将WordCount作为每个输入文件的一个输出文件进行处理……如中所示，让我举一个例子：- FILE_1 Dog Cat Dog Bull FILE_2 Cow Ox Tiger Dog Cat FILE_3 Dog Cow Ox Tiger Bull 应给出3个输出文件，每个输入文件1

我正在研究Hadoop framework for Mapreduce模型，并实际试用了WordCount、Max_temperature等基本示例，以便为我的项目创建一个Mapreduce任务。我只想知道如何将WordCount作为每个输入文件的一个输出文件进行处理……如中所示，让我举一个例子：-

FILE_1 Dog Cat Dog Bull
FILE_2 Cow Ox Tiger Dog Cat
FILE_3 Dog Cow Ox Tiger Bull

应给出3个输出文件，每个输入文件1个，如下所示：-

Out_1 Dog 2,Cat 1,Bull 1
Out_2 Cow 1,Ox 1,Tiger 1,Dog 1,Cat 1
Out_3 Dog 1,Cow 1,Ox 1,Tiger 1,Bull 1

我看了这里贴的答案，但没能很好地理解

救命啊！谢谢

每个减速机输出一个输出文件。输出文件的数量取决于还原器的数量

A 假设要在单个MapReduce作业中处理所有三个输入文件

至少，您必须将还原器的数量设置为所需的输出文件的数量

因为您正在尝试对每个文件进行字数统计。而不是跨文件。您必须确保一个文件的所有文件内容都由一个减速机处理。使用自定义分区器是实现这一点的一种方法

另一种方法是简单地运行MapReduce作业三次。每个输入文件一次。将Reducer计算为1。

即使我是hadoop的新手，也发现这个问题非常有趣。我就是这样解决的

public class Multiwordcnt {

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException  {

            Configuration conf = new Configuration();
            Job myJob = new Job(conf, "Multiwordcnt");
            String[] userargs = new GenericOptionsParser(conf, args).getRemainingArgs();

            myJob.setJarByClass(Multiwordcnt.class);
            myJob.setMapperClass(MyMapper.class);
            myJob.setReducerClass(MyReducer.class);     
            myJob.setMapOutputKeyClass(Text.class);
            myJob.setMapOutputValueClass(IntWritable.class);

            myJob.setOutputKeyClass(Text.class);
            myJob.setOutputValueClass(IntWritable.class);

            myJob.setInputFormatClass(TextInputFormat.class);
            myJob.setOutputFormatClass(TextOutputFormat.class);

            FileInputFormat.addInputPath(myJob, new Path(userargs[0]));
            FileOutputFormat.setOutputPath(myJob, new Path(userargs[1]));

            System.exit(myJob.waitForCompletion(true) ? 0 : 1 );
    }

    public static  class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

        Text emitkey = new Text();
        IntWritable emitvalue = new IntWritable(1);

        public void map(LongWritable key , Text value, Context context) throws IOException, InterruptedException {

            String filePathString = ((FileSplit) context.getInputSplit()).getPath().toString();                     
            String line = value.toString();
            StringTokenizer tokenizer = new StringTokenizer(line);
            while  (tokenizer.hasMoreTokens()){

                String filepathword = filePathString + "*" + tokenizer.nextToken();
                emitkey.set(filepathword);
                context.write(emitkey, emitvalue);
            }           
        }
    }

    public static  class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        Text emitkey = new Text();
        IntWritable emitvalue = new IntWritable();
        private MultipleOutputs<Text,IntWritable> multipleoutputs;

        public void setup(Context context) throws IOException, InterruptedException {
            multipleoutputs = new MultipleOutputs<Text,IntWritable>(context);
        }           

        public void reduce(Text key , Iterable <IntWritable> values, Context context)   throws IOException, InterruptedException {
            int sum = 0;

            for (IntWritable value : values){
                sum = sum + value.get();
            }
            String pathandword = key.toString();
            String[] splitted = pathandword.split("\\*");
            String path = splitted[0];
            String word = splitted[1];              
            emitkey.set(word);
            emitvalue.set(sum);
            System.out.println("word:" + word + "\t" + "sum:" + sum + "\t" + "path:  " + path);
            multipleoutputs.write(emitkey,emitvalue , path);
        }

        public void cleanup(Context context) throws IOException, InterruptedException {
            multipleoutputs.close();
        }
    }
}

您不能正确理解的部分是什么？Joao，在reducer函数中的对应代码是什么，就其本身而言，可以为每个输入文件分别访问mapper中的值？简言之，也请提及该链接的reducer代码，它可能是