Hadoop 何时在map reduce体系结构中写入输出文件的数据?如何在reducer中使用已处理的reducer输出数据?

Hadoop 何时在map reduce体系结构中写入输出文件的数据?如何在reducer中使用已处理的reducer输出数据?,hadoop,mapreduce,Hadoop,Mapreduce,我使用的是hadoop版本:1.0.0 在处理每个reducer输入键之后,我收集输出。但它并没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理进一步的输入键。我如何才能做到这一点 您能建议我如何使用中间数据吗?mapreduce什么时候将数据写入输出文件?您所问的问题与MR范式不符。而且,任何对概念的偏离都是一致的 从技术上讲,数据被传递到OutputFormat,他有权将其推送到输出。我想它是在工作期间写的,但是你可能会在看到它之前有一些延迟 我认为,您可以更轻松地在reducer

我使用的是hadoop版本:1.0.0

在处理每个reducer输入键之后,我收集输出。但它并没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理进一步的输入键。我如何才能做到这一点


您能建议我如何使用中间数据吗?mapreduce什么时候将数据写入输出文件?

您所问的问题与MR范式不符。而且,任何对概念的偏离都是一致的
从技术上讲,数据被传递到OutputFormat,他有权将其推送到输出。我想它是在工作期间写的,但是你可能会在看到它之前有一些延迟
我认为,您可以更轻松地在reducer中收集并使用经过处理的数据,尽管这种解决方案存在固有的问题。如果没有足够的钥匙,您可能会面临内存不足的问题
我建议使用两个MR jobs或其他一些技术使reducer无状态,或者至少限制它可以积累的数据量