File 多个小文件作为map reduce的输入
我有很多小文件,比如说20000多个 我想节省在映射器初始化上花费的时间,所以可以只使用500个映射器,每个映射器处理40个小文件作为输入吗 如果可能的话,我需要关于如何实现这种输入格式的指导,谢谢File 多个小文件作为map reduce的输入,file,input,hadoop,mapreduce,mapper,File,Input,Hadoop,Mapreduce,Mapper,我有很多小文件,比如说20000多个 我想节省在映射器初始化上花费的时间,所以可以只使用500个映射器,每个映射器处理40个小文件作为输入吗 如果可能的话,我需要关于如何实现这种输入格式的指导,谢谢 顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。可以使用CombineFileInputFormat。它就在电影和电影API里。这里有一个关于如何使用它的好方法
顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。可以使用CombineFileInputFormat。它就在电影和电影API里。这里有一个关于如何使用它的好方法