带有zip输入文件的Hadoop流媒体

带有zip输入文件的Hadoop流媒体,hadoop,zip,hadoop-streaming,Hadoop,Zip,Hadoop Streaming,我正在尝试运行一个流式作业,其中输入文件是压缩文件中的csv。 我尝试使用,但它似乎不适用于CDH4(我得到的错误是class com.cotdp.hadoop.ZipFileInputFormat而不是org.apache.hadoop.mapred.InputFormat) 有人知道我可以使用输入文件阅读器来处理zip文件流吗?如果可能的话,我正在寻找一个多文件阅读器(可以提供顶级目录)。有两个hadoop api用于输入格式。mapred.InputFormat和mapreduce.Inp

我正在尝试运行一个流式作业,其中输入文件是压缩文件中的csv。 我尝试使用,但它似乎不适用于CDH4(我得到的错误是
class com.cotdp.hadoop.ZipFileInputFormat而不是org.apache.hadoop.mapred.InputFormat


有人知道我可以使用输入文件阅读器来处理zip文件流吗?如果可能的话,我正在寻找一个多文件阅读器(可以提供顶级目录)。

有两个hadoop api用于输入格式。mapred.InputFormat和mapreduce.InputFormat

mapreduce是较新的API,如果可以,您应该使用它

我会检查ZipInputFormat实际实现的InputFormat。如果它实现了mapreduce版本,则需要将作业转移到第二个API

有一点背景:在早期的Hadoop版本中,“mapred”被贬低,取而代之的是“mapreduce”,一种更新、更快、更干净的实现。不幸的是,这个新API没有包含旧API的所有功能,因此在Hadoop的较新版本中,“mapred”被恢复,现在有两个API基本上做了相同的事情。

我最后写了一篇文章


请注意,这只是zip中的第一个文件,稍后我可能会添加对多个文件的支持。

它使用的是
mapreduce
one。