Apache spark 什么是hadoop(单节点和多节点)、spark master和spark worker?

Apache spark 什么是hadoop(单节点和多节点)、spark master和spark worker?,apache-spark,hadoop,hdfs,Apache Spark,Hadoop,Hdfs,我想了解以下术语: hadoop(单节点和多节点) 星火大师 火花工 名称节点 数据节点 到目前为止,我了解到spark master是工作执行者,负责处理所有spark工人。而hadoop是hdfs(我们的数据驻留的地方),spark workers根据分配给他们的任务从中读取数据。如果我错了,请纠正我 我还想了解namenode和datanode的角色。虽然我知道namenode的角色(拥有所有datanode的元数据信息,最好只有一个,但可以是两个),datanode可以是多个,并且拥有数

我想了解以下术语:

hadoop(单节点和多节点) 星火大师 火花工 名称节点 数据节点

到目前为止,我了解到spark master是工作执行者,负责处理所有spark工人。而hadoop是hdfs(我们的数据驻留的地方),spark workers根据分配给他们的任务从中读取数据。如果我错了,请纠正我

我还想了解namenode和datanode的角色。虽然我知道namenode的角色(拥有所有datanode的元数据信息,最好只有一个,但可以是两个),datanode可以是多个,并且拥有数据


datanodes是相同的hadoop节点吗?

SPARK体系结构:

Spark使用一个。有一个驱动程序与一个名为master的协调器对话,后者管理执行器运行的工作人员。

驱动程序和执行器在各自的Java进程中运行。您可以在相同(水平集群)或单独的计算机(垂直集群)上运行它们,也可以在混合计算机配置中运行它们

节点只是物理机器

Hadoop名称节点和数据节点:

具有主/从架构。HDFS集群由一个NameNode组成,它是一个主服务器,管理文件系统名称空间并管理客户端对文件的访问。此外,还有许多数据节点,通常是群集中每个节点一个,用于管理连接到它们运行的节点的存储。HDFS公开了一个文件系统名称空间,并允许用户数据存储在文件中。在内部,文件被分割成一个或多个块,这些块存储在一组数据节点中。NameNode执行文件系统名称空间操作,如打开、关闭和重命名文件和目录。它还确定块到数据节点的映射。DataNodes负责为来自文件系统客户端的读写请求提供服务。DataNodes还根据NameNode的指令执行块创建、删除和复制

是的,数据节点是Hadoop集群中的从节点


有关更多详细信息,请参阅文档。

SPARK体系结构:

Spark使用一个。有一个驱动程序与一个名为master的协调器对话,后者管理执行器运行的工作人员。

驱动程序和执行器在各自的Java进程中运行。您可以在相同(水平集群)或单独的计算机(垂直集群)上运行它们,也可以在混合计算机配置中运行它们

节点只是物理机器

Hadoop名称节点和数据节点:

具有主/从架构。HDFS集群由一个NameNode组成,它是一个主服务器,管理文件系统名称空间并管理客户端对文件的访问。此外,还有许多数据节点,通常是群集中每个节点一个,用于管理连接到它们运行的节点的存储。HDFS公开了一个文件系统名称空间,并允许用户数据存储在文件中。在内部,文件被分割成一个或多个块,这些块存储在一组数据节点中。NameNode执行文件系统名称空间操作,如打开、关闭和重命名文件和目录。它还确定块到数据节点的映射。DataNodes负责为来自文件系统客户端的读写请求提供服务。DataNodes还根据NameNode的指令执行块创建、删除和复制

是的,数据节点是Hadoop集群中的从节点


有关更多详细信息,请参阅文档。

Hadoop单节点Hadoop集群,其中包含1个Namenode(主节点)和1个Datanode(从节点)。Namenode拥有所有元数据,并将分配给从数据节点,从数据节点存储数据并完成处理

Hadoop多节点Hadoop集群,具有1个Namenode(主节点)和n个Datanode(从节点)

spark master与HDFS中的Namenode相同

spark worker与datanode相同,但spark worker仅用于处理而不是存储数据


把事情放在上下文中(简单)-如果有1个Namenode和2个datanode(1GB内存)集群。2 GB文件将被拆分并存储在datanodes上。类似于spark,作业将被拆分,以并行处理单个数据节点(工作节点)上的数据。

Hadoop单节点Hadoop集群,具有1个名称节点(主节点)和1个数据节点(从节点)。Namenode拥有所有元数据,并将分配给从数据节点,从数据节点存储数据并完成处理

Hadoop多节点Hadoop集群,具有1个Namenode(主节点)和n个Datanode(从节点)

spark master与HDFS中的Namenode相同

spark worker与datanode相同,但spark worker仅用于处理而不是存储数据


把事情放在上下文中(简单)-如果有1个Namenode和2个datanode(1GB内存)集群。2 GB文件将被拆分并存储在datanodes上。与spark相似,spark作业将被拆分以并行处理单个数据节点(工作节点)上的数据。

当使用spark读取/写入HDFS文件时,spark工作节点是否与HDFS数据节点相同?当使用spark读取/写入HDFS文件时,spark工作节点是否与HDFS数据节点相同?