在hadoop中处理小文件压缩

在hadoop中处理小文件压缩,hadoop,Hadoop,我有一个1GB的zip文件,其中包含大约1000万个小文件。 使用ZipInputStream导入zip文件是否足够,或者我仍然会面临问题 “Hadoop小文件问题” 也请提及解决此问题的更好方法。基本上,我想解析每个小文件的内容,并对其进行一些处理 谢谢这个邮政编码不会引起任何麻烦。因为对于HDFS,它将显示为一个大文件。我认为Zip无法拆分,因此您将无法获得并行性。@Donald Miner:那么您有什么建议?在启动MR程序之前,我是否应该编写另一个程序来解压该文件并从所有较小的文件中创建一

我有一个1GB的zip文件,其中包含大约1000万个小文件。 使用ZipInputStream导入zip文件是否足够,或者我仍然会面临问题 “Hadoop小文件问题”

也请提及解决此问题的更好方法。基本上,我想解析每个小文件的内容,并对其进行一些处理


谢谢

这个邮政编码不会引起任何麻烦。因为对于HDFS,它将显示为一个大文件。我认为Zip无法拆分,因此您将无法获得并行性。@Donald Miner:那么您有什么建议?在启动MR程序之前,我是否应该编写另一个程序来解压该文件并从所有较小的文件中创建一个序列文件?是的,块级gzip压缩序列文件工作得很好。您可以将文件名作为键,将内容作为值。