Java Hadoop使用KeyValueTextInputFormat_Java_Hadoop_Mapreduce_Word Count

Java Hadoop使用KeyValueTextInputFormat

java hadoop mapreduce

Java Hadoop使用KeyValueTextInputFormat,java,hadoop,mapreduce,word-count,Java,Hadoop,Mapreduce,Word Count,我使用Hadoop1.0.1来做一些项目，我想让我的input.txt文件成为“key”和我需要的“价值”，比如：如果我有一个test.txt文件，并且文件内容是 1，10，10 我想我可以使用“KeyValueTextInputFormat”和make“，”作为分隔符号，所以输入后，键是“1”，值是“10” 但是，我得到的结果是所有信息都是关键的，值是空的。我不知道问题出在哪里请给我一些帮助，谢谢以下是示例代码： public class WordCount{ public c

我使用Hadoop1.0.1来做一些项目，我想让我的input.txt文件成为“key”和我需要的“价值”，比如：

如果我有一个

test.txt

文件，并且文件内容是

1，10，10

我想我可以使用“KeyValueTextInputFormat”和make“，”作为分隔符号，所以输入后，键是“1”，值是“10”

但是，我得到的结果是所有信息都是关键的，值是空的。我不知道问题出在哪里

请给我一些帮助，谢谢

以下是示例代码：

public class WordCount{
    public class WordCountMapper extends Mapper<Text, Text, Text, Text>{  

        public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
            context.write(value, value);
            context.write(key, key);
        }   
      }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("key.value.separator.in.input.line",",");
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length != 2) {
          System.err.println("Usage: wordcount <in> <out>");
          System.exit(2);
        }
        Job job = new Job(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCountMapper.class);
        job.setInputFormatClass(KeyValueTextInputFormat.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        KeyValueTextInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
      }
}

公共类字数{
公共类WordCountMapper扩展了映射程序{
公共void映射（文本键、文本值、上下文上下文）引发IOException、InterruptedException{
写（值，值）；
context.write（key，key）；
}   
}
公共静态void main（字符串[]args）引发异常{
Configuration conf=新配置（）；
conf.set（“key.value.separator.in.input.line”，“，”）；
String[]otherArgs=新的GenericOptionsParser（conf，args）；
if（otherArgs.length！=2）{
System.err.println（“用法：wordcount”）；
系统出口（2）；
}
Job Job=新作业（conf，“字数”）；
job.setJarByClass（WordCount.class）；
setMapperClass（WordCountMapper.class）；
作业.setInputFormatClass（KeyValueTextInputFormat.class）；
job.setOutputKeyClass（Text.class）；
job.setOutputValueClass（Text.class）；
addInputPath（作业，新路径（其他参数[0]）；
setOutputPath（作业，新路径（其他参数[1]）；
系统退出（作业等待完成（真）？0:1；
}
}

将输入文件转换为键值对，并为所有这些对调用映射函数。现在，在您的示例中，映射的输入将是某个键（可能是1，因为它是文件中的行号），最重要的是，您的值将是1,10

现在，您可以从映射器输出任何内容，只有在交换和排序映射器的所有输出后，这些内容才会转到reducer类的reduce函数

所以，如果您从映射器输出context.write（value），并从reducer输出相同的内容，那么您将从所有文件中获得唯一的行

我不认为我已经解释了你想要什么，但这是Hadoop Map Reduce中发生的基本事情。

我刚刚尝试了

KeyValueTextInputFormat

是一个键，如果它们之间有一个选项卡，那么它会将整行作为键，并且没有任何值

因此，我们必须使用

1 10,10

来代替

1,10 10

分隔符可以在属性名

mapreduce.input.keyvaluelinerecordreader.key.value.separator

下指定，默认分隔符是制表符

（'\t'）

。因此，在您的例子中，更改行

conf.set（“key.value.separator.in.input.line”，“，”）
到
conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator",",");

这应该可以解决问题，因为你正确地使用了这些东西

运行当前代码时，输出如下
 10 10   10 10
1   1

为什么会这样是因为
您正在发射2个键值对
第一个键值对是value
第二个键值对是key-key
哪个是正确的
值为10
关键是1
公共类字数{
公共类WordCountMapper扩展了映射程序{
公共void映射（文本键、文本值、上下文上下文）引发IOException、InterruptedException{
context.write（“key”，key）；//将key打印为1
context.write（“value”，value）；//将值打印为10
System.out.println（key.toString（））；
System.out.println（value.toString（））；
}   
}
是的，您是对的。但是您可以更改KeyValueTextInputFormat的默认分隔符并实现目标
public class WordCount{
    public class WordCountMapper extends Mapper<Text, Text, Text, Text>{  

        public void map(Text key, Text value, Context context) throws IOException, InterruptedException {
            context.write("key", key);              //prints key as 1
            context.write("value", value);          //prints value as 10 10
            System.out.println(key.toString());
            System.out.println(value.toString());
        }   
      }