关于gz文件作为hadoop mapreduce作业的输入；s输入_Hadoop_Mapreduce

关于gz文件作为hadoop mapreduce作业的输入；s输入

hadoop mapreduce

关于gz文件作为hadoop mapreduce作业的输入；s输入,hadoop,mapreduce,Hadoop,Mapreduce,我正在编写以gz文件作为输入的mapreduce。一些gz文件实际上已损坏。但是制图员没有注意到这一点，成功地完成了工作。请问hadoop是如何处理此类文件的？我们无法使用gunzip从命令行打开错误gz文件。谢谢~Hadoop将gz文件传输到映射器正在执行的节点；解压缩文件，然后对内容进行迭代。每个文件将由一个映射器操作如果文件已损坏，则可能映射器从未实际执行映射器（或仅执行映射函数）。如果我们假定已启动映射器get；Hadoop尝试解压文件；静默失败，并继续使用空文件作为输入。解压

我正在编写以gz文件作为输入的mapreduce。一些gz文件实际上已损坏。但是制图员没有注意到这一点，成功地完成了工作。请问hadoop是如何处理此类文件的？我们无法使用gunzip从命令行打开错误gz文件。

谢谢~

Hadoop将gz文件传输到映射器正在执行的节点；解压缩文件，然后对内容进行迭代。每个文件将由一个映射器操作

如果文件已损坏，则可能映射器从未实际执行映射器（或仅执行映射函数）。如果我们假定已启动映射器get；Hadoop尝试解压文件；静默失败，并继续使用空文件作为输入。解压文件的内容为空，这允许映射程序成功完成

您可能需要

设置

和

清理

功能中的一些代码，这些代码允许您检测“空”文件，以便您可以增加一个计数器，表明作业实际上没有处理任何数据