Java 解析Hadoop 0.20.2中的日志目录_Java_Hadoop

Java 解析Hadoop 0.20.2中的日志目录

java hadoop

Java 解析Hadoop 0.20.2中的日志目录,java,hadoop,Java,Hadoop,我有一个基于文本的压缩日志文件目录，每个文件包含许多记录。在旧版本的Hadoop中，我将扩展MultiFileInputFormat，以返回一个自定义RecordReader，它解压缩日志文件并从那里继续。但我正在尝试使用Hadoop 0.20.2 在Hadoop 0.20.2文档中，我注意到MultiFileInputFormat被弃用，取而代之的是CombineFileInputFormat。但是为了扩展CombineFileInputFormat，我必须使用不推荐使用的类JobConf和I

我有一个基于文本的压缩日志文件目录，每个文件包含许多记录。在旧版本的Hadoop中，我将扩展

MultiFileInputFormat

，以返回一个自定义

RecordReader

，它解压缩日志文件并从那里继续。但我正在尝试使用Hadoop 0.20.2

在Hadoop 0.20.2文档中，我注意到

MultiFileInputFormat

被弃用，取而代之的是

CombineFileInputFormat

。但是为了扩展

CombineFileInputFormat

，我必须使用不推荐使用的类

JobConf

和

InputSplit

。什么是现代的

多文件输入格式

，或者从文件目录中获取记录的现代方法

多文件输入格式的现代等价物是什么，或者从文件目录中获取记录的现代方法是什么

o、 a.h.mapred.*具有旧API，而o.a.h.mapreduce.*是新API。一些输入/输出格式尚未迁移到新API。MultiFileInputFormat/CombineFileInputFormat尚未迁移到20.2中的新API。我记得打开了一个JIRA来迁移丢失的格式，但我不记得JIRA了

但是为了扩展CombineFileInputFormat，我必须使用不推荐使用的类JobConf和InputSplit

目前，使用旧的API应该还可以。请在Apache论坛中查看这一点。我不确定停止支持旧API的确切计划。我不认为很多人已经开始使用新的API，所以我认为在可预见的未来它将得到支持