Apache spark 来自Kafka的Spark 2.4.0结构化流式容错_Apache Spark_Apache Kafka_Spark Structured Streaming_Fault Tolerance

Apache spark 来自Kafka的Spark 2.4.0结构化流式容错

apache-spark apache-kafka

Apache spark 来自Kafka的Spark 2.4.0结构化流式容错,apache-spark,apache-kafka,spark-structured-streaming,fault-tolerance,Apache Spark,Apache Kafka,Spark Structured Streaming,Fault Tolerance,在阅读《卡夫卡》时，我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南：如果出现故障或故意关闭，可以恢复以前查询的进度和状态，并在停止时继续。这是使用检查点和预写日志完成的 1）如何重新启动失败的查询？能自动完成吗您可以使用检查点位置配置查询，该查询将所有进度信息（即每个触发器中处理的偏移量范围）和正在运行的聚合（例如，快速示例中的字数）保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径，并且可以在启动查询时在DataStreamWriter中设置为选

在阅读《卡夫卡》时，我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南：

如果出现故障或故意关闭，可以恢复以前查询的进度和状态，并在停止时继续。这是使用检查点和预写日志完成的

1）如何重新启动失败的查询？能自动完成吗

您可以使用检查点位置配置查询，该查询将所有进度信息（即每个触发器中处理的偏移量范围）和正在运行的聚合（例如，快速示例中的字数）保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径，并且可以在启动查询时在DataStreamWriter中设置为选项

2）如果不指定检查点位置，会发生什么情况？是选择了默认位置还是没有容错保证？能否将单个节点的本地非hdfs文件系统的路径指定为检查点位置？

您可以从streamingcontext.java中找到问题的答案

无检查点位置-

如果不指定检查点位置，则无法恢复故障

默认检查点位置

没有默认的检查点位置。我们需要具体说明

非hdfs检查点位置

HDFS兼容目录，检查点数据将在其中可靠存储。

请注意，这必须是像HDFS一样的容错文件系统。因此，没有必要指定本地检查点位置。

如果不启用此功能（指定检查点目录），则在重新启动时无法从旧数据中恢复。这些类也可用于结构化流媒体吗？这些概念也适用于结构化流媒体