Apache spark 使用Spark structured streaming 2.2批量API进行卡夫卡偏移量管理_Apache Spark_Apache Kafka_Spark Streaming

Apache spark 使用Spark structured streaming 2.2批量API进行卡夫卡偏移量管理

apache-spark apache-kafka

Apache spark 使用Spark structured streaming 2.2批量API进行卡夫卡偏移量管理,apache-spark,apache-kafka,spark-streaming,Apache Spark,Apache Kafka,Spark Streaming,只想知道卡夫卡偏移量的检查点是否适用于Spark structured stream（2.2）批处理API，还是我们需要管理偏移量？如果您指的是批处理数据帧读取器（例如Spark.read.format（“卡夫卡”）），而不是流读取器（例如Spark.readStream.format（“卡夫卡”）），则否，没有内置的抵销管理。由于它是一个批处理API，您通常会按照描述自己指定偏移量。对于流媒体，Spark可以为您执行偏移管理，因为它将在连续处理时读取多个批次范围。您指的是哪个批次API？结构化

只想知道卡夫卡偏移量的检查点是否适用于Spark structured stream（2.2）批处理API，还是我们需要管理偏移量？

如果您指的是批处理数据帧读取器（例如

Spark.read.format（“卡夫卡”）

），而不是流读取器（例如

Spark.readStream.format（“卡夫卡”）

），则否，没有内置的抵销管理。由于它是一个批处理API，您通常会按照描述自己指定偏移量。对于流媒体，Spark可以为您执行偏移管理，因为它将在连续处理时读取多个批次范围。

您指的是哪个批次API？结构化流媒体不公开这样的API.spark.read，而公开spark.read。这是我的猜测，但仍然不是很确定，因为流式和批处理API都是在同一个框架上构建的，为批处理API提供检查点也应该很容易。