Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 来自Kafka的Spark 2.4.0结构化流式容错_Apache Spark_Apache Kafka_Spark Structured Streaming_Fault Tolerance - Fatal编程技术网

Apache spark 来自Kafka的Spark 2.4.0结构化流式容错

Apache spark 来自Kafka的Spark 2.4.0结构化流式容错,apache-spark,apache-kafka,spark-structured-streaming,fault-tolerance,Apache Spark,Apache Kafka,Spark Structured Streaming,Fault Tolerance,在阅读《卡夫卡》时,我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南: 如果出现故障或故意关闭,可以恢复以前查询的进度和状态,并在停止时继续。这是使用检查点和预写日志完成的 1) 如何重新启动失败的查询?能自动完成吗 您可以使用检查点位置配置查询,该查询将所有进度信息(即每个触发器中处理的偏移量范围)和正在运行的聚合(例如,快速示例中的字数)保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时在DataStreamWriter中设置为选

在阅读《卡夫卡》时,我对Spark结构化流媒体中的容错性有一些疑问。这来自结构化流媒体编程指南:

如果出现故障或故意关闭,可以恢复以前查询的进度和状态,并在停止时继续。这是使用检查点和预写日志完成的

1) 如何重新启动失败的查询?能自动完成吗

您可以使用检查点位置配置查询,该查询将所有进度信息(即每个触发器中处理的偏移量范围)和正在运行的聚合(例如,快速示例中的字数)保存到检查点位置。此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时在DataStreamWriter中设置为选项


2) 如果不指定检查点位置,会发生什么情况?是选择了默认位置还是没有容错保证?能否将单个节点的本地非hdfs文件系统的路径指定为检查点位置?

您可以从streamingcontext.java中找到问题的答案

无检查点位置-

如果不指定检查点位置,则无法恢复故障

默认检查点位置

没有默认的检查点位置。我们需要具体说明

非hdfs检查点位置

HDFS兼容目录,检查点数据将在其中可靠存储。
请注意,这必须是像HDFS一样的容错文件系统。因此,没有必要指定本地检查点位置。

如果不启用此功能(指定检查点目录),则在重新启动时无法从旧数据中恢复。这些类也可用于结构化流媒体吗?这些概念也适用于结构化流媒体