Spark与Hadoop有何不同?

Spark与Hadoop有何不同?,hadoop,apache-spark,Hadoop,Apache Spark,我正在努力学习Spark框架。在其主页上,据说它比Hadoop框架更好。但是他们说:Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候,却可以在Hadoop上运行 有人能给我解释一下这两者之间的层次结构吗?我认为这将帮助您更好地理解Spark和Haddop之间的关系: Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪,

我正在努力学习Spark框架。在其主页上,据说它比Hadoop框架更好。但是他们说:Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候,却可以在Hadoop上运行


有人能给我解释一下这两者之间的层次结构吗?

我认为这将帮助您更好地理解Spark和Haddop之间的关系:

Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪, 实现大数据处理和分析的效率远远高于 以前是可能的

另一方面,Spark是一个 对这些分布式数据进行操作的数据处理工具 收藏;它不做分布式存储


有关更多信息,请阅读。

我认为这将帮助您更好地理解Spark和Haddop之间的关系:

Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪, 实现大数据处理和分析的效率远远高于 以前是可能的

另一方面,Spark是一个 对这些分布式数据进行操作的数据处理工具 收藏;它不做分布式存储


有关更多信息,请阅读。

Hadoop的主要组件是资源管理器(纱线)、分布式文件系统(HDFS)和分布式工作流框架(MapReduce)

Spark可以使用Thread在Hadoop上运行,但Spark不使用HDFS或MapReduce,而是使用DAG(有向无环图)来规划作业,并尝试在内存(而不是文件系统)中存储尽可能多的数据。这使Spark在大多数情况下更快


Spark也可以在没有专用Hadoop集群的情况下以独立模式运行,因此这两个组件不是100%绑定在一起的。

Hadoop的主要组件是资源管理器(纱线)、分布式文件系统(HDFS)和分布式工作流框架(MapReduce)

Spark可以使用Thread在Hadoop上运行,但Spark不使用HDFS或MapReduce,而是使用DAG(有向无环图)来规划作业,并尝试在内存(而不是文件系统)中存储尽可能多的数据。这使Spark在大多数情况下更快

Spark也可以在没有专用Hadoop群集的情况下以独立模式运行,因此这两个组件不是100%绑定在一起的。

Apache Hadoop(2.0)提供了两个主要组件,(1)
HDFS
Hadoop分布式文件系统,用于在群集上存储数据(即文件),以及(2)
纱线
群集计算资源管理系统(即CPU/RAM)

Hadoop 2.0:

  • 存储管理:HDFS
  • 计算资源管理:纱线
Hadoop(2.0)还提供了一个名为“MapReduce(MR2-MapReduce2)”的执行引擎,它可以使用计算资源执行基于MapReduce的程序

在Hadoop(2.0)之前,Thread并不存在,MapReduce执行资源管理和执行引擎两个角色。Hadoop(2.0)将计算资源管理与执行引擎分离,允许您在Hadoop集群上运行多种类型的应用程序

  • 当人们说Spark优于Hadoop时,他们通常指的是MapReduce执行引擎
  • 当人们说Spark可以在Hadoop(2.0)上运行时,他们通常指的是使用计算资源的Spark
一些Hadoop 2.0执行引擎示例:

  • 用于运行MapReduce2(MR2)的纱线资源

  • 用于运行Spark的纱线资源

  • 用于运行Tez的纱线资源

Spark程序需要资源来运行,它们通常来自Spark独立集群,或者使用Hadoop集群中的纱线资源来获取资源;还有其他运行Spark的方法,但这里不需要讨论这些方法

与MapReduce程序一样,Spark程序也可以访问存储在HDFS或其他地方的数据。

ApacheHadoop(2.0)提供了两个主要组件,(1)
HDFS
Hadoop分布式文件系统,用于在集群上存储数据(即文件),以及(2)
Thread
集群计算资源管理系统(即CPU/RAM)

Hadoop 2.0:

  • 存储管理:HDFS
  • 计算资源管理:纱线
Hadoop(2.0)还提供了一个名为“MapReduce(MR2-MapReduce2)”的执行引擎,它可以使用计算资源执行基于MapReduce的程序

在Hadoop(2.0)之前,Thread并不存在,MapReduce执行资源管理和执行引擎两个角色。Hadoop(2.0)将计算资源管理与执行引擎分离,允许您在Hadoop集群上运行多种类型的应用程序

  • 当人们说Spark优于Hadoop时,他们通常指的是MapReduce执行引擎
  • 当人们说Spark可以在Hadoop(2.0)上运行时,他们通常指的是使用计算资源的Spark
一些Hadoop 2.0执行引擎示例:

  • 用于运行MapReduce2(MR2)的纱线资源

  • 用于运行Spark的纱线资源

  • 用于运行Tez的纱线资源

Spark程序需要资源来运行,它们通常来自Spark独立集群,或者使用Hadoop集群中的纱线资源来获取资源;还有其他运行Spark的方法,但这里不需要讨论这些方法