Spark与Hadoop有何不同?
我正在努力学习Spark框架。在其主页上,据说它比Hadoop框架更好。但是他们说:Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候,却可以在Hadoop上运行Spark与Hadoop有何不同?,hadoop,apache-spark,Hadoop,Apache Spark,我正在努力学习Spark框架。在其主页上,据说它比Hadoop框架更好。但是他们说:Spark在Hadoop上运行。。。我真的不明白为什么在Hadoop应该比Hadoop好的时候,却可以在Hadoop上运行 有人能给我解释一下这两者之间的层次结构吗?我认为这将帮助您更好地理解Spark和Haddop之间的关系: Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪,
有人能给我解释一下这两者之间的层次结构吗?我认为这将帮助您更好地理解Spark和Haddop之间的关系: Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪, 实现大数据处理和分析的效率远远高于 以前是可能的 另一方面,Spark是一个 对这些分布式数据进行操作的数据处理工具 收藏;它不做分布式存储
有关更多信息,请阅读。我认为这将帮助您更好地理解Spark和Haddop之间的关系: Hadoop是 本质上是一个分布式数据基础架构:它分发大量数据 跨商品集群中的多个节点收集数据 服务器,这意味着您不需要购买和维护昂贵的服务器 定制硬件。它还对这些数据进行索引和跟踪, 实现大数据处理和分析的效率远远高于 以前是可能的 另一方面,Spark是一个 对这些分布式数据进行操作的数据处理工具 收藏;它不做分布式存储
有关更多信息,请阅读。Hadoop的主要组件是资源管理器(纱线)、分布式文件系统(HDFS)和分布式工作流框架(MapReduce) Spark可以使用Thread在Hadoop上运行,但Spark不使用HDFS或MapReduce,而是使用DAG(有向无环图)来规划作业,并尝试在内存(而不是文件系统)中存储尽可能多的数据。这使Spark在大多数情况下更快
Spark也可以在没有专用Hadoop集群的情况下以独立模式运行,因此这两个组件不是100%绑定在一起的。Hadoop的主要组件是资源管理器(纱线)、分布式文件系统(HDFS)和分布式工作流框架(MapReduce) Spark可以使用Thread在Hadoop上运行,但Spark不使用HDFS或MapReduce,而是使用DAG(有向无环图)来规划作业,并尝试在内存(而不是文件系统)中存储尽可能多的数据。这使Spark在大多数情况下更快 Spark也可以在没有专用Hadoop群集的情况下以独立模式运行,因此这两个组件不是100%绑定在一起的。Apache Hadoop(2.0)提供了两个主要组件,(1)
HDFS
Hadoop分布式文件系统,用于在群集上存储数据(即文件),以及(2)纱线
群集计算资源管理系统(即CPU/RAM)
Hadoop 2.0:
- 存储管理:HDFS
- 计算资源管理:纱线
- 当人们说Spark优于Hadoop时,他们通常指的是MapReduce执行引擎
- 当人们说Spark可以在Hadoop(2.0)上运行时,他们通常指的是使用计算资源的Spark
- 用于运行MapReduce2(MR2)的纱线资源
- 用于运行Spark的纱线资源
- 用于运行Tez的纱线资源
HDFS
Hadoop分布式文件系统,用于在集群上存储数据(即文件),以及(2)Thread
集群计算资源管理系统(即CPU/RAM)
Hadoop 2.0:
- 存储管理:HDFS
- 计算资源管理:纱线
- 当人们说Spark优于Hadoop时,他们通常指的是MapReduce执行引擎
- 当人们说Spark可以在Hadoop(2.0)上运行时,他们通常指的是使用计算资源的Spark
- 用于运行MapReduce2(MR2)的纱线资源
- 用于运行Spark的纱线资源
- 用于运行Tez的纱线资源