具有多个输入文件的Hadoop流媒体_Hadoop_Mapreduce_Hadoop Streaming

具有多个输入文件的Hadoop流媒体

hadoop mapreduce

具有多个输入文件的Hadoop流媒体,hadoop,mapreduce,hadoop-streaming,Hadoop,Mapreduce,Hadoop Streaming,我想用Hadoop使用流API从一组文件构建一个反向索引。文档总是指使用一个文件，该文件的行中有要输入到映射器的条目。但在这种情况下，我有多个输入文件，我需要映射程序一次只处理一个文件。有没有办法做到这一点。出于预处理的原因，我需要这样的输入，并且我不能使用文档所引用的经典line=key，value格式的输入。默认情况下，映射程序只处理一个文件，除非您使用允许组合输入（如CombineFileInputFormat）的输入类然后，如果您有10个文件，您将以10个映射器结束，每个映射器将只处理

我想用Hadoop使用流API从一组文件构建一个反向索引。文档总是指使用一个文件，该文件的行中有要输入到映射器的条目。但在这种情况下，我有多个输入文件，我需要映射程序一次只处理一个文件。有没有办法做到这一点。出于预处理的原因，我需要这样的输入，并且我不能使用文档所引用的经典line=key，value格式的输入。

默认情况下，映射程序只处理一个文件，除非您使用允许组合输入（如CombineFileInputFormat）的输入类

然后，如果您有10个文件，您将以10个映射器结束，每个映射器将只处理一个文件。如果您只使用映射器（而不是还原器），则将以10个输出文件（每个映射器一个）结束

另一方面，如果有足够大的可拆分文件，则一个文件可能同时由多个映射器处理