具有多个输入文件的Hadoop流媒体

具有多个输入文件的Hadoop流媒体,hadoop,mapreduce,hadoop-streaming,Hadoop,Mapreduce,Hadoop Streaming,我想用Hadoop使用流API从一组文件构建一个反向索引。文档总是指使用一个文件,该文件的行中有要输入到映射器的条目。但在这种情况下,我有多个输入文件,我需要映射程序一次只处理一个文件。有没有办法做到这一点。出于预处理的原因,我需要这样的输入,并且我不能使用文档所引用的经典line=key,value格式的输入。默认情况下,映射程序只处理一个文件,除非您使用允许组合输入(如CombineFileInputFormat)的输入类 然后,如果您有10个文件,您将以10个映射器结束,每个映射器将只处理

我想用Hadoop使用流API从一组文件构建一个反向索引。文档总是指使用一个文件,该文件的行中有要输入到映射器的条目。但在这种情况下,我有多个输入文件,我需要映射程序一次只处理一个文件。有没有办法做到这一点。出于预处理的原因,我需要这样的输入,并且我不能使用文档所引用的经典line=key,value格式的输入。

默认情况下,映射程序只处理一个文件,除非您使用允许组合输入(如CombineFileInputFormat)的输入类

然后,如果您有10个文件,您将以10个映射器结束,每个映射器将只处理一个文件。如果您只使用映射器(而不是还原器),则将以10个输出文件(每个映射器一个)结束

另一方面,如果有足够大的可拆分文件,则一个文件可能同时由多个映射器处理