关于gz文件作为hadoop mapreduce作业的输入;s输入

关于gz文件作为hadoop mapreduce作业的输入;s输入,hadoop,mapreduce,Hadoop,Mapreduce,我正在编写以gz文件作为输入的mapreduce。 一些gz文件实际上已损坏。但是制图员没有注意到这一点,成功地完成了工作。 请问hadoop是如何处理此类文件的? 我们无法使用gunzip从命令行打开错误gz文件。 谢谢~Hadoop将gz文件传输到映射器正在执行的节点;解压缩文件,然后对内容进行迭代。每个文件将由一个映射器操作 如果文件已损坏,则可能映射器从未实际执行映射器(或仅执行映射函数)。如果我们假定已启动映射器get;Hadoop尝试解压文件;静默失败,并继续使用空文件作为输入。解压

我正在编写以gz文件作为输入的mapreduce。 一些gz文件实际上已损坏。但是制图员没有注意到这一点,成功地完成了工作。 请问hadoop是如何处理此类文件的? 我们无法使用gunzip从命令行打开错误gz文件。
谢谢~

Hadoop将gz文件传输到映射器正在执行的节点;解压缩文件,然后对内容进行迭代。每个文件将由一个映射器操作

如果文件已损坏,则可能映射器从未实际执行映射器(或仅执行映射函数)。如果我们假定已启动映射器get;Hadoop尝试解压文件;静默失败,并继续使用空文件作为输入。解压文件的内容为空,这允许映射程序成功完成

您可能需要
设置
清理
功能中的一些代码,这些代码允许您检测“空”文件,以便您可以增加一个计数器,表明作业实际上没有处理任何数据