Hadoop 何时在map reduce体系结构中写入输出文件的数据？如何在reducer中使用已处理的reducer输出数据？_Hadoop_Mapreduce

Hadoop 何时在map reduce体系结构中写入输出文件的数据？如何在reducer中使用已处理的reducer输出数据？

hadoop mapreduce

Hadoop 何时在map reduce体系结构中写入输出文件的数据？如何在reducer中使用已处理的reducer输出数据？,hadoop,mapreduce,Hadoop,Mapreduce,我使用的是hadoop版本：1.0.0 在处理每个reducer输入键之后，我收集输出。但它并没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理进一步的输入键。我如何才能做到这一点您能建议我如何使用中间数据吗？mapreduce什么时候将数据写入输出文件？您所问的问题与MR范式不符。而且，任何对概念的偏离都是一致的从技术上讲，数据被传递到OutputFormat，他有权将其推送到输出。我想它是在工作期间写的，但是你可能会在看到它之前有一些延迟我认为，您可以更轻松地在reducer

我使用的是hadoop版本：1.0.0

在处理每个reducer输入键之后，我收集输出。但它并没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理进一步的输入键。我如何才能做到这一点

您能建议我如何使用中间数据吗？mapreduce什么时候将数据写入输出文件？

您所问的问题与MR范式不符。而且，任何对概念的偏离都是一致的
从技术上讲，数据被传递到OutputFormat，他有权将其推送到输出。我想它是在工作期间写的，但是你可能会在看到它之前有一些延迟
我认为，您可以更轻松地在reducer中收集并使用经过处理的数据，尽管这种解决方案存在固有的问题。如果没有足够的钥匙，您可能会面临内存不足的问题
我建议使用两个MR jobs或其他一些技术使reducer无状态，或者至少限制它可以积累的数据量