Apache spark 卡夫卡的火花补偿管理

Apache spark 卡夫卡的火花补偿管理,apache-spark,spark-structured-streaming,spark-kafka-integration,Apache Spark,Spark Structured Streaming,Spark Kafka Integration,我正在使用Spark结构化流媒体(版本2.3.2)。我需要从卡夫卡集群中读取数据,然后写入Kerberized卡夫卡。 在这里,我想在将记录写入Kerberized Kafka之后使用Kafka作为偏移量检查点 问题: 我们可以使用Kafka作为检查点来管理偏移量,还是只需要使用HDFS/S3 请帮忙 我们可以使用卡夫卡作为检查点来管理偏移量吗 不,不能将偏移提交回源卡夫卡主题。这一点在官方文件中有详细描述 或者我们只需要使用HDFS/S3吗 是的,这必须是类似HDFS或S3的东西。Struct

我正在使用Spark结构化流媒体(版本2.3.2)。我需要从卡夫卡集群中读取数据,然后写入Kerberized卡夫卡。 在这里,我想在将记录写入Kerberized Kafka之后使用Kafka作为偏移量检查点

问题:

  • 我们可以使用Kafka作为检查点来管理偏移量,还是只需要使用HDFS/S3
  • 请帮忙

    我们可以使用卡夫卡作为检查点来管理偏移量吗

    不,不能将偏移提交回源卡夫卡主题。这一点在官方文件中有详细描述

    或者我们只需要使用HDFS/S3吗


    是的,这必须是类似HDFS或S3的东西。StructuredStreaming编程指南的一节对此进行了解释:“此检查点位置必须是HDFS兼容文件系统中的路径,并且可以在启动查询时设置为DataStreamWriter中的选项。”

    这是否回答了您的问题?在对接收器卡夫卡进行写入之后,我想在源卡夫卡中提交偏移量,在此之前我不想提交偏移量。您需要使用框架,而不是使用框架。正如@mike所说的那样。