Dataframe Spark中的卡夫卡补偿管理

Dataframe Spark中的卡夫卡补偿管理,dataframe,apache-spark,apache-kafka,Dataframe,Apache Spark,Apache Kafka,简单的问题,我一直在阅读关于使用卡夫卡和spark流媒体(结构化或非结构化)的文章。使用它,您可以依靠自动检查点、从最后一个偏移量/分区自动重新启动等等 现在,对于项目需求,我需要使用spark dataframe作业阅读Kafka主题,该作业以批处理方式安排 每个分区处理的Kafka偏移量如何? 如何在作业启动时重新启动,只读取最新消息 简而言之:有没有办法在没有必要的spark streaming作业的情况下拥有相同的功能?没有spark streaming?卡夫卡流有一个类似的API。。。

简单的问题,我一直在阅读关于使用卡夫卡和spark流媒体(结构化或非结构化)的文章。使用它,您可以依靠自动检查点、从最后一个偏移量/分区自动重新启动等等

现在,对于项目需求,我需要使用spark dataframe作业阅读Kafka主题,该作业以批处理方式安排

每个分区处理的Kafka偏移量如何? 如何在作业启动时重新启动,只读取最新消息


简而言之:有没有办法在没有必要的spark streaming作业的情况下拥有相同的功能?

没有spark streaming?卡夫卡流有一个类似的API。。。否则,只需将起始偏移设置为最新。否则,文档将显示如何为每个分区指定开始和结束的偏移量。您是否得到过此问题的答案。我们需要一些指导。