Java Hadoop MapReduce中Map/Combine之后和Reduce阶段之前的数据保存在哪里?

Java Hadoop MapReduce中Map/Combine之后和Reduce阶段之前的数据保存在哪里?,java,hadoop,apache-spark,mapreduce,Java,Hadoop,Apache Spark,Mapreduce,在Spark中,我们可以随时将数据保存在内存中,但我想知道Hadoop MapReduce中Map和Reduce阶段之间的数据保存在哪里。它保存在HDFS、磁盘还是RAM中?我的意思是,当数据被洗牌时(在Map/Combiner之后,即Reduce之前),数据保存在哪里?在常规Hadoop MapReduce中,在开始下一步之前,每个步骤之间的作业输出数据必须存储在分布式文件系统(HDFS)中。因此,还原程序必须从那里获取数据,这增加了磁盘/群集开销时间 当执行高复杂度操作时,您需要按顺序安排不

在Spark中,我们可以随时将数据保存在内存中,但我想知道Hadoop MapReduce中Map和Reduce阶段之间的数据保存在哪里。它保存在HDFS、磁盘还是RAM中?我的意思是,当数据被洗牌时(在Map/Combiner之后,即Reduce之前),数据保存在哪里?

在常规Hadoop MapReduce中,在开始下一步之前,每个步骤之间的作业输出数据必须存储在分布式文件系统(HDFS)中。因此,还原程序必须从那里获取数据,这增加了磁盘/群集开销时间

当执行高复杂度操作时,您需要按顺序安排不同的Map/Reduce作业(在Hadoop中),其中每个作业都将在HDFS中存储和检索数据,开销会变得相当大


Spark极大地提高了性能,尽可能将这些部分结果保留在内存中

在常规Hadoop MapReduce中,在开始下一步之前,每个步骤之间的作业输出数据必须存储在分布式文件系统(HDFS)中。因此,还原程序必须从那里获取数据,这增加了磁盘/群集开销时间

当执行高复杂度操作时,您需要按顺序安排不同的Map/Reduce作业(在Hadoop中),其中每个作业都将在HDFS中存储和检索数据,开销会变得相当大


Spark极大地提高了性能,尽可能将这些部分结果保留在内存中

所有中间数据将存储在HDFS磁盘中。因为所有的map/reduce操作都不是在单个节点中完成的。因此,对于其他易于访问数据(已处理数据)的节点,所有临时数据都将存储在HDFS磁盘中


只有操作所需的数据才会进入内存。

所有中间数据都将存储在HDFS磁盘中。因为所有的map/reduce操作都不是在单个节点中完成的。因此,对于其他易于访问数据(已处理数据)的节点,所有临时数据都将存储在HDFS磁盘中


只有操作所需的数据才会被带入内存。

根据我在Hadoop Mapreduce中的知识

1) 映射任务输出被写入本地磁盘。(映射/组合器之后和Reduce任务之前)

2) Reducer任务输出以HDFS编写

如果Mapreduce作业只有映射器,则以HDFS编写任务输出


希望这有帮助

根据我对Hadoop Mapreduce的了解

1) 映射任务输出被写入本地磁盘。(映射/组合器之后和Reduce任务之前)

2) Reducer任务输出以HDFS编写

如果Mapreduce作业只有映射器,则以HDFS编写任务输出


希望这有帮助

在本地磁盘或HDFS?本地磁盘(在映射/组合器之后和Reduce任务之前)中,您可以在本地磁盘或HDFS?本地磁盘(在映射/组合器之后和Reduce任务之前)中找到很少的Mapreduce示例,您可以在