Apache spark 什么是hadoop（单节点和多节点）、spark master和spark worker？_Apache Spark_Hadoop_Hdfs

Apache spark 什么是hadoop（单节点和多节点）、spark master和spark worker？

apache-spark hadoop

Apache spark 什么是hadoop（单节点和多节点）、spark master和spark worker？,apache-spark,hadoop,hdfs,Apache Spark,Hadoop,Hdfs,我想了解以下术语： hadoop（单节点和多节点）星火大师火花工名称节点数据节点到目前为止，我了解到spark master是工作执行者，负责处理所有spark工人。而hadoop是hdfs（我们的数据驻留的地方），spark workers根据分配给他们的任务从中读取数据。如果我错了，请纠正我我还想了解namenode和datanode的角色。虽然我知道namenode的角色（拥有所有datanode的元数据信息，最好只有一个，但可以是两个），datanode可以是多个，并且拥有数

我想了解以下术语：

hadoop（单节点和多节点）星火大师火花工名称节点数据节点

到目前为止，我了解到spark master是工作执行者，负责处理所有spark工人。而hadoop是hdfs（我们的数据驻留的地方），spark workers根据分配给他们的任务从中读取数据。如果我错了，请纠正我

我还想了解namenode和datanode的角色。虽然我知道namenode的角色（拥有所有datanode的元数据信息，最好只有一个，但可以是两个），datanode可以是多个，并且拥有数据

datanodes是相同的hadoop节点吗？

SPARK体系结构：

Spark使用一个。有一个驱动程序与一个名为master的协调器对话，后者管理执行器运行的工作人员。

驱动程序和执行器在各自的Java进程中运行。您可以在相同（水平集群）或单独的计算机（垂直集群）上运行它们，也可以在混合计算机配置中运行它们

节点只是物理机器

Hadoop名称节点和数据节点：

具有主/从架构。HDFS集群由一个NameNode组成，它是一个主服务器，管理文件系统名称空间并管理客户端对文件的访问。此外，还有许多数据节点，通常是群集中每个节点一个，用于管理连接到它们运行的节点的存储。HDFS公开了一个文件系统名称空间，并允许用户数据存储在文件中。在内部，文件被分割成一个或多个块，这些块存储在一组数据节点中。NameNode执行文件系统名称空间操作，如打开、关闭和重命名文件和目录。它还确定块到数据节点的映射。DataNodes负责为来自文件系统客户端的读写请求提供服务。DataNodes还根据NameNode的指令执行块创建、删除和复制

是的，数据节点是Hadoop集群中的从节点

有关更多详细信息，请参阅文档。

SPARK体系结构：

Spark使用一个。有一个驱动程序与一个名为master的协调器对话，后者管理执行器运行的工作人员。

驱动程序和执行器在各自的Java进程中运行。您可以在相同（水平集群）或单独的计算机（垂直集群）上运行它们，也可以在混合计算机配置中运行它们

节点只是物理机器

Hadoop名称节点和数据节点：

是的，数据节点是Hadoop集群中的从节点

有关更多详细信息，请参阅文档。

Hadoop单节点Hadoop集群，其中包含1个Namenode（主节点）和1个Datanode（从节点）。Namenode拥有所有元数据，并将分配给从数据节点，从数据节点存储数据并完成处理

Hadoop多节点Hadoop集群，具有1个Namenode（主节点）和n个Datanode（从节点）

spark master与HDFS中的Namenode相同

spark worker与datanode相同，但spark worker仅用于处理而不是存储数据

把事情放在上下文中（简单）-如果有1个Namenode和2个datanode（1GB内存）集群。2 GB文件将被拆分并存储在datanodes上。类似于spark，作业将被拆分，以并行处理单个数据节点（工作节点）上的数据。

Hadoop单节点Hadoop集群，具有1个名称节点（主节点）和1个数据节点（从节点）。Namenode拥有所有元数据，并将分配给从数据节点，从数据节点存储数据并完成处理

Hadoop多节点Hadoop集群，具有1个Namenode（主节点）和n个Datanode（从节点）

spark master与HDFS中的Namenode相同

spark worker与datanode相同，但spark worker仅用于处理而不是存储数据

把事情放在上下文中（简单）-如果有1个Namenode和2个datanode（1GB内存）集群。2 GB文件将被拆分并存储在datanodes上。与spark相似，spark作业将被拆分以并行处理单个数据节点（工作节点）上的数据。

当使用spark读取/写入HDFS文件时，spark工作节点是否与HDFS数据节点相同？当使用spark读取/写入HDFS文件时，spark工作节点是否与HDFS数据节点相同？