Apache spark 来自Kafka的Spark 2.4.0结构化流式容错
在阅读《卡夫卡》时,我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南: 如果出现故障或故意关闭,可以恢复以前查询的进度和状态,并在停止时继续。这是使用检查点和预写日志完成的 1) 如何重新启动失败的查询?能自动完成吗 您可以使用检查点位置配置查询,该查询将所有进度信息(即每个触发器中处理的偏移量范围)和正在运行的聚合(例如,快速示例中的字数)保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时在DataStreamWriter中设置为选项Apache spark 来自Kafka的Spark 2.4.0结构化流式容错,apache-spark,apache-kafka,spark-structured-streaming,fault-tolerance,Apache Spark,Apache Kafka,Spark Structured Streaming,Fault Tolerance,在阅读《卡夫卡》时,我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南: 如果出现故障或故意关闭,可以恢复以前查询的进度和状态,并在停止时继续。这是使用检查点和预写日志完成的 1) 如何重新启动失败的查询?能自动完成吗 您可以使用检查点位置配置查询,该查询将所有进度信息(即每个触发器中处理的偏移量范围)和正在运行的聚合(例如,快速示例中的字数)保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时在DataStreamWriter中设置为选
2) 如果不指定检查点位置,会发生什么情况?是选择了默认位置还是没有容错保证?能否将单个节点的本地非hdfs文件系统的路径指定为检查点位置?您可以从streamingcontext.java中找到问题的答案 无检查点位置- 如果不指定检查点位置,则无法恢复故障 默认检查点位置 没有默认的检查点位置。我们需要具体说明 非hdfs检查点位置 HDFS兼容目录,检查点数据将在其中可靠存储。
请注意,这必须是像HDFS一样的容错文件系统。因此,没有必要指定本地检查点位置。如果不启用此功能(指定检查点目录),则在重新启动时无法从旧数据中恢复。这些类也可用于结构化流媒体吗?这些概念也适用于结构化流媒体