Java 解析Hadoop 0.20.2中的日志目录
我有一个基于文本的压缩日志文件目录,每个文件包含许多记录。在旧版本的Hadoop中,我将扩展Java 解析Hadoop 0.20.2中的日志目录,java,hadoop,Java,Hadoop,我有一个基于文本的压缩日志文件目录,每个文件包含许多记录。在旧版本的Hadoop中,我将扩展MultiFileInputFormat,以返回一个自定义RecordReader,它解压缩日志文件并从那里继续。但我正在尝试使用Hadoop 0.20.2 在Hadoop 0.20.2文档中,我注意到MultiFileInputFormat被弃用,取而代之的是CombineFileInputFormat。但是为了扩展CombineFileInputFormat,我必须使用不推荐使用的类JobConf和I
MultiFileInputFormat
,以返回一个自定义RecordReader
,它解压缩日志文件并从那里继续。但我正在尝试使用Hadoop 0.20.2
在Hadoop 0.20.2文档中,我注意到MultiFileInputFormat
被弃用,取而代之的是CombineFileInputFormat
。但是为了扩展CombineFileInputFormat
,我必须使用不推荐使用的类JobConf
和InputSplit
。什么是现代的多文件输入格式
,或者从文件目录中获取记录的现代方法
多文件输入格式的现代等价物是什么,或者从文件目录中获取记录的现代方法是什么
o、 a.h.mapred.*具有旧API,而o.a.h.mapreduce.*是新API。一些输入/输出格式尚未迁移到新API。MultiFileInputFormat/CombineFileInputFormat尚未迁移到20.2中的新API。我记得打开了一个JIRA来迁移丢失的格式,但我不记得JIRA了
但是为了扩展CombineFileInputFormat,我必须使用不推荐使用的类JobConf和InputSplit
目前,使用旧的API应该还可以。请在Apache论坛中查看这一点。我不确定停止支持旧API的确切计划。我不认为很多人已经开始使用新的API,所以我认为在可预见的未来它将得到支持