如何在Hadoop Map/Reduce中使用LZO以外的压缩来处理协议缓冲区文件?

如何在Hadoop Map/Reduce中使用LZO以外的压缩来处理协议缓冲区文件?,hadoop,gzip,protocol-buffers,lzo,xz,Hadoop,Gzip,Protocol Buffers,Lzo,Xz,我想使用Hadoop Map/Reduce来处理协议缓冲区文件,这些文件是使用LZO以外的东西压缩的,例如xz或gzip。Twitter的大象鸟库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不能满足我的需要。是否有一个现有的库或标准方法来实现这一点 (注意:正如我选择的压缩算法所示,解决方案不需要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该允许我提到的其中一种。)您可能需要查看用于Hadoop的RAgzip修补程序,以处理大型Gzip文件的多个映射

我想使用Hadoop Map/Reduce来处理协议缓冲区文件,这些文件是使用LZO以外的东西压缩的,例如
xz
gzip
。Twitter的大象鸟库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不能满足我的需要。是否有一个现有的库或标准方法来实现这一点


注意:正如我选择的压缩算法所示,解决方案不需要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该允许我提到的其中一种。)

您可能需要查看用于Hadoop的RAgzip修补程序,以处理大型Gzip文件的多个映射任务:

您可能需要查看用于Hadoop的RAgzip修补程序,以处理大型Gzip文件的多个映射任务: