Java 使用Hadoop/HDFS进行100万个生物度量(小)文件比较
我是hadoop的初学者,阅读hadoop中的smallfile问题,现在我有一个问题需要解决,请帮助我开始 问题: 源结果:大约100多万(约)个文件,每个文件大小接近1KB(无法阻止创建或调整大小) 结果分组: 源结果被分组为1000个文件 所需任务: 要以一对一的方式比较组中具有的文件 文件是遵循特定标准结构(标题、内容等)的二进制细节(生物测量)文件 由于预期源代码的结果会随着时间的推移而增加,我想在hadoop上实现比较 Hadoop的输入:Java 使用Hadoop/HDFS进行100万个生物度量(小)文件比较,java,hadoop,bigdata,hadoop2,hdf,Java,Hadoop,Bigdata,Hadoop2,Hdf,我是hadoop的初学者,阅读hadoop中的smallfile问题,现在我有一个问题需要解决,请帮助我开始 问题: 源结果:大约100多万(约)个文件,每个文件大小接近1KB(无法阻止创建或调整大小) 结果分组: 源结果被分组为1000个文件 所需任务: 要以一对一的方式比较组中具有的文件 文件是遵循特定标准结构(标题、内容等)的二进制细节(生物测量)文件 由于预期源代码的结果会随着时间的推移而增加,我想在hadoop上实现比较 Hadoop的输入: : 请注意,文件名是唯一的ID,仅发送文