Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 今天使用MapReduce代替Spark有什么好处吗?_Apache Spark_Hadoop_Mapreduce - Fatal编程技术网

Apache spark 今天使用MapReduce代替Spark有什么好处吗?

Apache spark 今天使用MapReduce代替Spark有什么好处吗?,apache-spark,hadoop,mapreduce,Apache Spark,Hadoop,Mapreduce,我正在建立一个Hadoop集群,用于测试/PoC。今天有什么东西不能用Spark作为处理引擎吗?在我看来,Spark已经取代了MR,围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig…)-还有其他限制吗? 据我所知,即使对于批量作业,Spark的速度也至少与MR一样快,如果您希望在将来扩展您的用例(流),那么您无论如何都需要适应Spark 我这么问是因为到今天为止,大多数介绍和教程都会教你Hadoop和MapReduce。很简单,不,

我正在建立一个Hadoop集群,用于测试/PoC。今天有什么东西不能用Spark作为处理引擎吗?在我看来,Spark已经取代了MR,围绕Hadoop构建的所有其他工具/抽象也与Spark兼容(Hive、Sqoop、Flume、HBase、Pig…)-还有其他限制吗? 据我所知,即使对于批量作业,Spark的速度也至少与MR一样快,如果您希望在将来扩展您的用例(流),那么您无论如何都需要适应Spark


我这么问是因为到今天为止,大多数介绍和教程都会教你Hadoop和MapReduce。

很简单,不,现在没有理由使用MapReduce。Spark更快,更容易使用,有更多的持续开发,更多的连接器,更多的用户,更多的优化


在教程中使用MapReduce是因为许多教程已经过时,但也因为MapReduce演示了在所有分布式系统中处理数据的基本方法。在我看来,任何想使用“大数据”的人都应该(至少在概念上)理解MapReduce。

不要完全同意最终聚合是否适合内存spark始终是正确的选择,因为实际上您拥有大数据量(更大的数据集)并且处理是线性的,MR有其独特的优点place@shainnif这些天来,这是完全不真实的(见)——引用“从实验室工作中,我们发现Spark在所有案例研究中的性能完全超过Hadoop,尤其是在迭代算法中涉及的案例研究”。请注意,这是从2016年开始的,此后Spark的速度只会更快。Spark即使在仅映射操作中也要快得多。处理是线性的,这是我在第4页的注释表4中所做的一个注释,特别显示了仅映射计时的比较(也称为“线性处理”),并显示了Spark对MR的4倍改进。输入大小似乎在500gb时达到最高,我建议MR从100TB开始(可能20-50岁)