Hadoop 如何在mapper中缓存所有数据记录并在最后进行处理?

Hadoop 如何在mapper中缓存所有数据记录并在最后进行处理?,hadoop,mapreduce,Hadoop,Mapreduce,我有一个MapReduce工作,其中映射者负责对数据记录进行聚类。读取数据记录时,我将其添加到列表中。如何知道何时读取了所有数据记录,我可以开始对列表进行聚类?当任务完成时,映射器界面提供了一个清理方法。您可以使用它作为钩子来触发需要对对象的列表执行的任何附加逻辑。我不得不问,为什么不使用Reducer任务来执行此处理

我有一个MapReduce工作,其中映射者负责对数据记录进行聚类。读取数据记录时,我将其添加到
列表中。如何知道何时读取了所有数据记录,我可以开始对
列表进行聚类?

当任务完成时,
映射器
界面提供了一个
清理
方法。您可以使用它作为钩子来触发需要对对象的
列表执行的任何附加逻辑。我不得不问,为什么不使用
Reducer
任务来执行此处理