Apache spark 如果只有一个map reduce作业,map reduce是否提供与spark相同的性能?

Apache spark 如果只有一个map reduce作业,map reduce是否提供与spark相同的性能?,apache-spark,mapreduce,bigdata,Apache Spark,Mapreduce,Bigdata,大多数bigdata作业没有一个mapreduce作业,因此spark通过将中间数据存储在内存中并避免在HDFS上进行复制而发挥作用 我的问题是,如果只有一个mapreduce作业,比如wordcount,该怎么办。mapreduce作业是否提供与spark相同的性能?若否,原因为何 这可能是一个一般性的问题,但我正在努力理解spark的深层架构。根据论文,spark在字数上比mapreduce快2.5倍。他们将这一差异归因于更有效地将数据从map阶段路由到reduce阶段 用于字数计算 以及类

大多数bigdata作业没有一个mapreduce作业,因此spark通过将中间数据存储在内存中并避免在HDFS上进行复制而发挥作用

我的问题是,如果只有一个mapreduce作业,比如wordcount,该怎么办。mapreduce作业是否提供与spark相同的性能?若否,原因为何

这可能是一个一般性的问题,但我正在努力理解spark的深层架构。

根据论文,spark在字数上比mapreduce快2.5倍。他们将这一差异归因于更有效地将数据从map阶段路由到reduce阶段

用于字数计算 以及类似的工作负载,其中映射输出选择性可以 使用映射端组合器、基于哈希的聚合显著减少 在Spark中比在中基于排序的聚合更有效 MapReduce。执行时间分解结果表明 基于散列的框架约占整个框架的39% 火花点火装置的改进