Mahout的XmlInputFormat是否在不重写的情况下处理gzip压缩文件?

Mahout的XmlInputFormat是否在不重写的情况下处理gzip压缩文件?,xml,hadoop,mapreduce,gzip,mahout,Xml,Hadoop,Mapreduce,Gzip,Mahout,Mahout的XmlInputFormat可以在不重写任何方法的情况下处理gzip数据吗?我一直在尝试解析WikipediaXML数据,但到目前为止都没有成功 我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中,或者特定于其他输入格式,并且没有内置到Mahout的输入格式中。但也许我错过了什么 注意:我已经能够解析xml了,但是我从来没有找到一个明确的答案,我很惊讶我这么难找到一个。希望有更聪明的人能启发我和其他人。根据这一点,没有编解码器处理,没

Mahout的XmlInputFormat可以在不重写任何方法的情况下处理gzip数据吗?我一直在尝试解析WikipediaXML数据,但到目前为止都没有成功

我听说Hadoop能够自动处理gzip文件,但我现在假设它包含在TextInputFormat类中,或者特定于其他输入格式,并且没有内置到Mahout的输入格式中。但也许我错过了什么

注意:我已经能够解析xml了,但是我从来没有找到一个明确的答案,我很惊讶我这么难找到一个。希望有更聪明的人能启发我和其他人。

根据这一点,没有编解码器处理,没有覆盖我认为这是不可能的

对于LineRecordReader,它看起来像这样,并且基于文件扩展名,它确实应用了编解码器

您仍然可以尝试使用cloud9提供的WikipediaPageInputFormat

他们已经处理好了,检查是否对你有效