Hadoop多输入压缩文件处理

Hadoop多输入压缩文件处理,hadoop,Hadoop,我有一个文件夹,由大约200万个压缩输入文件组成。每个压缩文件由2到4个文件组成。我有一个大小为5的MapR集群。 我正在使用hadoop MapReduce处理这些文件。在映射器中处理之前,我希望一次合并N个输入文件。 关于如何组合一些输入文件以使单个映射程序处理多个文件,有何建议 s3中有这些输入文件吗?你有什么压缩文件格式?gzip、zip或其他文件?它是一个.zip文件,我在MapR文件系统中有它。请参阅本文是否有帮助:。我肯定它适用于未压缩文件,也肯定它不适用于.gzip文件。希望它适

我有一个文件夹,由大约200万个压缩输入文件组成。每个压缩文件由2到4个文件组成。我有一个大小为5的MapR集群。 我正在使用hadoop MapReduce处理这些文件。在映射器中处理之前,我希望一次合并N个输入文件。
关于如何组合一些输入文件以使单个映射程序处理多个文件,有何建议

s3中有这些输入文件吗?你有什么压缩文件格式?gzip、zip或其他文件?它是一个.zip文件,我在MapR文件系统中有它。请参阅本文是否有帮助:。我肯定它适用于未压缩文件,也肯定它不适用于.gzip文件。希望它适用于.zip文件。