Hadoop MapReduce如何处理多个输入文件?

Hadoop MapReduce如何处理多个输入文件?,hadoop,mapreduce,mapper,Hadoop,Mapreduce,Mapper,所以我正在写一个MR作业,从一个输入文件夹中读取数百个文件。因为所有的文件都是压缩的,所以我没有使用默认的TextInputFormat,而是使用了来自在线代码源的WholeFileReadFormat 所以我的问题是映射程序是否按顺序处理多个输入文件?我的意思是,如果我有三个文件A、B、C,由于我将整个文件内容作为地图输入值来读取,mapreduce会按照A->B->C的顺序处理这些文件吗?这意味着,只有在使用A之后,Mapper才会开始处理B 事实上,我对地图作业和地图任务的概念有些困惑。在

所以我正在写一个MR作业,从一个输入文件夹中读取数百个文件。因为所有的文件都是压缩的,所以我没有使用默认的TextInputFormat,而是使用了来自在线代码源的WholeFileReadFormat

所以我的问题是映射程序是否按顺序处理多个输入文件?我的意思是,如果我有三个文件A、B、C,由于我将整个文件内容作为地图输入值来读取,mapreduce会按照A->B->C的顺序处理这些文件吗?这意味着,只有在使用A之后,Mapper才会开始处理B

事实上,我对地图作业和地图任务的概念有些困惑。在我的理解中,地图工作和制图员是一样的。一个mapper作业包含多个map任务,在我的例子中,每个map任务将在单个文件中读取。但我不明白的是,我认为映射任务是并行执行的,所以我认为所有的输入文件都应该并行处理,这是一个悖论

有人能给我解释一下吗?

可能是