Apache spark 今天使用MapReduce代替Spark有什么好处吗？_Apache Spark_Hadoop_Mapreduce

Apache spark 今天使用MapReduce代替Spark有什么好处吗？

apache-spark hadoop mapreduce

Apache spark 今天使用MapReduce代替Spark有什么好处吗？,apache-spark,hadoop,mapreduce,Apache Spark,Hadoop,Mapreduce,我正在建立一个Hadoop集群，用于测试/PoC。今天有什么东西不能用Spark作为处理引擎吗？在我看来，Spark已经取代了MR，围绕Hadoop构建的所有其他工具/抽象也与Spark兼容（Hive、Sqoop、Flume、HBase、Pig…）-还有其他限制吗？据我所知，即使对于批量作业，Spark的速度也至少与MR一样快，如果您希望在将来扩展您的用例（流），那么您无论如何都需要适应Spark 我这么问是因为到今天为止，大多数介绍和教程都会教你Hadoop和MapReduce。很简单，不，

我正在建立一个Hadoop集群，用于测试/PoC。今天有什么东西不能用Spark作为处理引擎吗？在我看来，Spark已经取代了MR，围绕Hadoop构建的所有其他工具/抽象也与Spark兼容（Hive、Sqoop、Flume、HBase、Pig…）-还有其他限制吗？据我所知，即使对于批量作业，Spark的速度也至少与MR一样快，如果您希望在将来扩展您的用例（流），那么您无论如何都需要适应Spark

我这么问是因为到今天为止，大多数介绍和教程都会教你Hadoop和MapReduce。

很简单，不，现在没有理由使用MapReduce。Spark更快，更容易使用，有更多的持续开发，更多的连接器，更多的用户，更多的优化

在教程中使用MapReduce是因为许多教程已经过时，但也因为MapReduce演示了在所有分布式系统中处理数据的基本方法。在我看来，任何想使用“大数据”的人都应该（至少在概念上）理解MapReduce。

不要完全同意最终聚合是否适合内存spark始终是正确的选择，因为实际上您拥有大数据量（更大的数据集）并且处理是线性的，MR有其独特的优点place@shainnif这些天来，这是完全不真实的（见）——引用“从实验室工作中，我们发现Spark在所有案例研究中的性能完全超过Hadoop，尤其是在迭代算法中涉及的案例研究”。请注意，这是从2016年开始的，此后Spark的速度只会更快。Spark即使在仅映射操作中也要快得多。处理是线性的，这是我在第4页的注释表4中所做的一个注释，特别显示了仅映射计时的比较（也称为“线性处理”），并显示了Spark对MR的4倍改进。输入大小似乎在500gb时达到最高，我建议MR从100TB开始（可能20-50岁）