Spark与Hadoop有何不同？_Hadoop_Apache Spark

Spark与Hadoop有何不同？

hadoop apache-spark

Spark与Hadoop有何不同？,hadoop,apache-spark,Hadoop,Apache Spark,我正在努力学习Spark框架。在其主页上，据说它比Hadoop框架更好。但是他们说：Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候，却可以在Hadoop上运行有人能给我解释一下这两者之间的层次结构吗？我认为这将帮助您更好地理解Spark和Haddop之间的关系： Hadoop是本质上是一个分布式数据基础架构：它分发大量数据跨商品集群中的多个节点收集数据服务器，这意味着您不需要购买和维护昂贵的服务器定制硬件。它还对这些数据进行索引和跟踪，

我正在努力学习Spark框架。在其主页上，据说它比Hadoop框架更好。但是他们说：Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候，却可以在Hadoop上运行

有人能给我解释一下这两者之间的层次结构吗？

我认为这将帮助您更好地理解Spark和Haddop之间的关系：

Hadoop是本质上是一个分布式数据基础架构：它分发大量数据跨商品集群中的多个节点收集数据服务器，这意味着您不需要购买和维护昂贵的服务器定制硬件。它还对这些数据进行索引和跟踪，实现大数据处理和分析的效率远远高于以前是可能的

另一方面，Spark是一个对这些分布式数据进行操作的数据处理工具收藏；它不做分布式存储

有关更多信息，请阅读。

我认为这将帮助您更好地理解Spark和Haddop之间的关系：

另一方面，Spark是一个对这些分布式数据进行操作的数据处理工具收藏；它不做分布式存储

有关更多信息，请阅读。

Hadoop的主要组件是资源管理器（纱线）、分布式文件系统（HDFS）和分布式工作流框架（MapReduce）

Spark可以使用Thread在Hadoop上运行，但Spark不使用HDFS或MapReduce，而是使用DAG（有向无环图）来规划作业，并尝试在内存（而不是文件系统）中存储尽可能多的数据。这使Spark在大多数情况下更快

Spark也可以在没有专用Hadoop集群的情况下以独立模式运行，因此这两个组件不是100%绑定在一起的。

Hadoop的主要组件是资源管理器（纱线）、分布式文件系统（HDFS）和分布式工作流框架（MapReduce）

Spark也可以在没有专用Hadoop群集的情况下以独立模式运行，因此这两个组件不是100%绑定在一起的。

Apache Hadoop（2.0）提供了两个主要组件，（1）

HDFS

Hadoop分布式文件系统，用于在群集上存储数据（即文件），以及（2）

纱线

群集计算资源管理系统（即CPU/RAM）

Hadoop 2.0：

存储管理：HDFS
计算资源管理：纱线

Hadoop（2.0）还提供了一个名为“MapReduce（MR2-MapReduce2）”的执行引擎，它可以使用计算资源执行基于MapReduce的程序

在Hadoop（2.0）之前，Thread并不存在，MapReduce执行资源管理和执行引擎两个角色。Hadoop（2.0）将计算资源管理与执行引擎分离，允许您在Hadoop集群上运行多种类型的应用程序

当人们说Spark优于Hadoop时，他们通常指的是MapReduce执行引擎
当人们说Spark可以在Hadoop（2.0）上运行时，他们通常指的是使用计算资源的Spark

一些Hadoop 2.0执行引擎示例：

用于运行MapReduce2（MR2）的纱线资源
用于运行Spark的纱线资源
用于运行Tez的纱线资源

Spark程序需要资源来运行，它们通常来自Spark独立集群，或者使用Hadoop集群中的纱线资源来获取资源；还有其他运行Spark的方法，但这里不需要讨论这些方法

与MapReduce程序一样，Spark程序也可以访问存储在HDFS或其他地方的数据。

ApacheHadoop（2.0）提供了两个主要组件，（1）

HDFS

Hadoop分布式文件系统，用于在集群上存储数据（即文件），以及（2）

Thread

集群计算资源管理系统（即CPU/RAM）

Hadoop 2.0：

存储管理：HDFS
计算资源管理：纱线

Hadoop（2.0）还提供了一个名为“MapReduce（MR2-MapReduce2）”的执行引擎，它可以使用计算资源执行基于MapReduce的程序

当人们说Spark优于Hadoop时，他们通常指的是MapReduce执行引擎
当人们说Spark可以在Hadoop（2.0）上运行时，他们通常指的是使用计算资源的Spark

一些Hadoop 2.0执行引擎示例：

用于运行MapReduce2（MR2）的纱线资源
用于运行Spark的纱线资源
用于运行Tez的纱线资源