Apache spark Spark master出现故障时会发生什么情况?

Apache spark Spark master出现故障时会发生什么情况?,apache-spark,apache-spark-standalone,Apache Spark,Apache Spark Standalone,驱动程序是否需要不断访问主节点?或者只是 需要获得初始资源分配吗?如果主人被杀了怎么办 创建Spark上下文后不可用?这是否意味着应用程序将失败?是的,在SparkContext的整个生命周期中,驱动程序和主程序会不断通信。允许驾驶员: 在其Web界面和REST API上显示作业/阶段/任务的详细状态 侦听作业开始和结束事件(您可以添加自己的侦听器) 等待作业结束(通过同步API-例如,rdd.count()在作业完成之前不会终止)并获取其结果 驱动程序和主机之间的断开连接将导致作业失败。主

驱动程序是否需要不断访问主节点?或者只是 需要获得初始资源分配吗?如果主人被杀了怎么办
创建Spark上下文后不可用?这是否意味着应用程序将失败?

是的,在SparkContext的整个生命周期中,驱动程序和主程序会不断通信。允许驾驶员:

  • 在其Web界面和REST API上显示作业/阶段/任务的详细状态
  • 侦听作业开始和结束事件(您可以添加自己的侦听器)
  • 等待作业结束(通过同步API-例如,
    rdd.count()
    在作业完成之前不会终止)并获取其结果

驱动程序和主机之间的断开连接将导致作业失败。

主机故障或网络分区导致的第一个也是目前最严重的后果是,您的群集将无法接受新的应用程序。这就是为什么当集群与默认配置一起使用时,主机被认为是单点故障

运行中的应用程序将确认主机丢失,但除此之外,这些应用程序应继续工作,就像什么都没有发生一样,但有两个重要的例外:

  • 应用程序将无法正常完成
  • 若主节点关闭,或者网络分区也影响工作节点,则从节点将尝试关闭。如果这样的话,工人们会很简单。目前,长时间运行的应用程序(如流式应用程序)将无法继续处理,但仍不应导致立即失败。相反,应用程序将等待主机返回联机状态(文件系统恢复)或新主机的联系人(Zookeeper模式),如果发生这种情况,它将继续处理

    • 以下是spark应用程序启动时执行的步骤

    • 启动火花驱动器
    • Spark驱动程序,连接到Spark主机进行资源分配
    • Spark驱动程序,将Spark上下文中连接的jar发送到主服务器
    • Spark驱动程序,不断轮询主服务器以获取作业状态
    • 若代码中存在混洗或广播,则数据将通过spark驱动程序路由。这就是为什么火花驱动器需要有足够的内存
    • 若有任何像take、takeOrdered或collect这样的操作,数据将在驱动程序上的累加器中存储
    • 所以,是的,主控器故障将导致执行者无法与其通信。因此,他们将停止工作。 主机故障将使驱动程序无法与其通信以了解作业状态。
      因此,您的应用程序将失败。

      Buf如果重新启动主机,它可以从日志中恢复吗?我从你的帖子中得到了“是”的概念。我的意思是批量作业,而不是流式处理。SA或纱线是否重要?我想不是。