Hadoop 在mapreduce作业中,数据何时写入磁盘?

Hadoop 在mapreduce作业中,数据何时写入磁盘?,hadoop,mapreduce,Hadoop,Mapreduce,我知道每个映射程序都将其中间数据写入磁盘,然后还原程序将其输出转储到磁盘。在mapreduce作业期间,是否还有其他时间数据可能溢出到磁盘?我正在寻找任何可能的时间,即使它不是在一个典型的作业中。MR从HDFS获取输入,每个映射任务处理它,保存在内存中,如果超过默认的100MB(io.sort.mb),则将其拆分到磁盘。然后将结果输出到HDFS而不是磁盘。有关更多详细信息,请查看链接, 您可以定义映射器输出时的百分比 mapred-site.xml文件中的mapred.reduce.slowst

我知道每个映射程序都将其中间数据写入磁盘,然后还原程序将其输出转储到磁盘。在mapreduce作业期间,是否还有其他时间数据可能溢出到磁盘?我正在寻找任何可能的时间,即使它不是在一个典型的作业中。

MR从HDFS获取输入,每个映射任务处理它,保存在内存中,如果超过默认的100MB(io.sort.mb),则将其拆分到磁盘。然后将结果输出到HDFS而不是磁盘。有关更多详细信息,请查看链接,

您可以定义映射器输出时的百分比

mapred-site.xml文件中的mapred.reduce.slowstart.completed.maps

也许会有帮助