Apache spark 主服务器在Spark独立集群中的角色

Apache spark 主服务器在Spark独立集群中的角色,apache-spark,cluster-computing,Apache Spark,Cluster Computing,在Spark独立集群中,主节点(以start_master.sh脚本启动的节点)的角色到底是什么 我知道它是从submit-job.sh脚本接收作业的节点,但在处理作业时它的角色是什么 我在web UI中看到,它总是将作业传递给从节点(以start_slave.sh启动的节点),并且不参与处理,对吗?在这种情况下,我是否也应该在与master相同的机器上运行脚本start_slave.sh以利用其资源(cpu和内存) 提前感谢。Spark以以下群集模式运行: 本地的 独立的 介观 纱线 以上

在Spark独立集群中,主节点(以start_master.sh脚本启动的节点)的角色到底是什么

我知道它是从submit-job.sh脚本接收作业的节点,但在处理作业时它的角色是什么

我在web UI中看到,它总是将作业传递给从节点(以start_slave.sh启动的节点),并且不参与处理,对吗?在这种情况下,我是否也应该在与master相同的机器上运行脚本start_slave.sh以利用其资源(cpu和内存)


提前感谢。

Spark以以下群集模式运行:

  • 本地的
  • 独立的
  • 介观
  • 纱线
以上是集群模式,它们为激发应用程序提供了资源

Spark standalone模式是主从结构,我们有Spark master和Spark Workers。Spark Master在其中一个群集节点上运行,Spark Worker在群集的从属节点上运行

Spark Master(通常是独立编写的Master)是资源管理器 用于Spark独立群集在 Spark应用程序。这些资源用于运行Spark驱动程序和执行器

Spark Workers向Spark Master报告从属节点上的资源信息


[apache spark]

spark standalone自带自己的资源管理器。将Spark Master/Worker视为Thread ResourceManager/NodeManager。

但是,在这种情况下,我是否也应该在与Master相同的机器上运行脚本start_slave.sh以利用其资源(cpu和内存)?我们有一些启动和停止脚本来运行这些进程(Master和workers)。我们需要一个主机和至少一个从机来运行Spark独立模式。如果有一个物理节点,则使用$SPARK_HOME/sbin目录的start-all.sh在同一节点上运行Master和Worker。如果有多个节点,则使用start-all.sh脚本在节点上运行Master,在其他节点上运行worker。我们也可以使用start-master.sh和start-slave.sh来运行这些进程。我已经在一个真正的集群中对其进行了测试。是的,如果我们想改变节点的cpu和内存,那么有必要在承载主节点的节点中运行从属脚本或工作脚本,因为主节点只使用了其中的一小部分资源,因此它们将以任何其他方式被浪费。