Apache spark 如何在Spark Streaming中自动重新启动故障节点?

Apache spark 如何在Spark Streaming中自动重新启动故障节点?,apache-spark,spark-streaming,high-availability,monit,fault-tolerance,Apache Spark,Spark Streaming,High Availability,Monit,Fault Tolerance,我在集群上以独立模式使用Spark 我目前正在开发Spark流媒体应用程序。我为系统添加了检查点,以便处理主进程突然失败的情况,我发现它工作得很好 我的问题是:如果整个节点崩溃(电源故障、硬件错误等),会发生什么情况?是否有一种方法可以自动识别集群中的故障节点,如果是,则在同一台机器上重新启动它们(或者改为在另一台机器上重新启动它们) 我已经看过了,但它似乎是在一台特定的机器上运行的,当我需要在节点上执行相同的操作时,会重新启动失败的进程。说清楚一点,我不介意重启操作是否需要一点时间,但我更希望

我在集群上以独立模式使用Spark

我目前正在开发Spark流媒体应用程序。我为系统添加了检查点,以便处理主进程突然失败的情况,我发现它工作得很好

我的问题是:如果整个节点崩溃(电源故障、硬件错误等),会发生什么情况?是否有一种方法可以自动识别集群中的故障节点,如果是,则在同一台机器上重新启动它们(或者改为在另一台机器上重新启动它们)

我已经看过了,但它似乎是在一台特定的机器上运行的,当我需要在节点上执行相同的操作时,会重新启动失败的进程。说清楚一点,我不介意重启操作是否需要一点时间,但我更希望它自动发生

有没有办法做到这一点


提前感谢

Spark Standalone对高可用性提供了一些支持,如前所述,至少对主节点是如此

当工作节点死亡时,Spark将在其他节点上调度作业,这或多或少也适用于Spark流

除此之外,您还需要一些集群管理和监视工具