Java CombineFileInputFormat Hadoop 0.20.205的实现_Java_Mapreduce_Inputformatter

Java CombineFileInputFormat Hadoop 0.20.205的实现

java mapreduce

Java CombineFileInputFormat Hadoop 0.20.205的实现,java,mapreduce,inputformatter,Java,Mapreduce,Inputformatter,有人能指出我在哪里可以找到使用Hadoop 0.20.205的CombineFileInputFormat（org.using Hadoop 0.20.205）的实现吗？这是使用EMR从非常小的日志文件（行中的文本）创建大的拆分令人惊讶的是，Hadoop没有为这个类专门为此目的而设计的默认实现，谷歌搜索似乎并不是唯一一个对此感到困惑的人。我需要编译这个类并将其打包到一个jar中，用于Hadoop流媒体，而Java知识有限，这是一个挑战编辑：我已经尝试了yetitrails示例，并进行了必要

有人能指出我在哪里可以找到使用Hadoop 0.20.205的

CombineFileInputFormat

（org.using Hadoop 0.20.205）的实现吗？这是使用EMR从非常小的日志文件（行中的文本）创建大的拆分

令人惊讶的是，Hadoop没有为这个类专门为此目的而设计的默认实现，谷歌搜索似乎并不是唯一一个对此感到困惑的人。我需要编译这个类并将其打包到一个jar中，用于Hadoop流媒体，而Java知识有限，这是一个挑战

编辑：

我已经尝试了yetitrails示例，并进行了必要的导入，但下一个方法出现了编译器错误。

以下是我为您提供的一个实现：

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.LineRecordReader;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.lib.CombineFileInputFormat;
import org.apache.hadoop.mapred.lib.CombineFileRecordReader;
import org.apache.hadoop.mapred.lib.CombineFileSplit;

@SuppressWarnings("deprecation")
public class CombinedInputFormat extends CombineFileInputFormat<LongWritable, Text> {

    @SuppressWarnings({ "unchecked", "rawtypes" })
    @Override
    public RecordReader<LongWritable, Text> getRecordReader(InputSplit split, JobConf conf, Reporter reporter) throws IOException {

        return new CombineFileRecordReader(conf, (CombineFileSplit) split, reporter, (Class) myCombineFileRecordReader.class);
    }

    public static class myCombineFileRecordReader implements RecordReader<LongWritable, Text> {
        private final LineRecordReader linerecord;

        public myCombineFileRecordReader(CombineFileSplit split, Configuration conf, Reporter reporter, Integer index) throws IOException {
            FileSplit filesplit = new FileSplit(split.getPath(index), split.getOffset(index), split.getLength(index), split.getLocations());
            linerecord = new LineRecordReader(conf, filesplit);
        }

        @Override
        public void close() throws IOException {
            linerecord.close();

        }

        @Override
        public LongWritable createKey() {
            // TODO Auto-generated method stub
            return linerecord.createKey();
        }

        @Override
        public Text createValue() {
            // TODO Auto-generated method stub
            return linerecord.createValue();
        }

        @Override
        public long getPos() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getPos();
        }

        @Override
        public float getProgress() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getProgress();
        }

        @Override
        public boolean next(LongWritable key, Text value) throws IOException {

            // TODO Auto-generated method stub
            return linerecord.next(key, value);
        }

    }
}

你在雪人步道的例子中发现了什么错误？我觉得还可以。你看到了吗：@Charles，谢谢你，我得到的错误是“错误：MyKeyValueLineRecordReader不是抽象的，不会覆盖RecordReader中的下一个抽象方法（对象，对象）”嗨@Amar，索引从哪里来？@ManikandanKannan:使用这种InputFormat时，您不必担心索引。要使用它，只需执行

conf.setInputFormat（CombinedInputFormat.class）；

如上所示。但仅供参考的索引可能是hadoop内部初始化记录读取器时传递的分割数。非常感谢！在这个解决方案之前花了1小时40分钟的工作现在只需要5分钟。另外，整个文件记录读取器来自Tom White book。感谢您发表这么多评论源代码：）做得好！Brillent，使用这个组合器，我的工作从30分钟变为2分钟。我的每个小文件都有5MB的大小，跨越了4000个地图绘制者，相比之下，这个小文件覆盖了71个地图绘制者combiner@Prometheus…我已经将此组合输入格式实现用于小文件…但映射器的数量已从100减少到25，但已看到，但在以后的情况下，从（100分钟到33分钟）你能告诉我你的工作前后是什么吗，confs？这是我的问题

...
            if (argument != null) {
                conf.set("mapred.max.split.size", argument);
            } else {
                conf.set("mapred.max.split.size", "134217728"); // 128 MB
            }
...

            conf.setInputFormat(CombinedInputFormat.class);
...