Apache spark 使用PySpark寻找卡夫卡主题的开头

Apache spark 使用PySpark寻找卡夫卡主题的开头,apache-spark,pyspark,Apache Spark,Pyspark,在PySpark中使用卡夫卡流,是否可以在不创建新的消费群体的情况下寻找卡夫卡主题的开头 例如,我有以下代码片段: ... import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell' from pyspark import SparkContext from pyspark.sql import Spa

在PySpark中使用卡夫卡流,是否可以在不创建新的消费群体的情况下寻找卡夫卡主题的开头

例如,我有以下代码片段:

...
import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell'
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext('local[2]', appName="MyStreamingApp_01")
sc.setLogLevel("INFO")
ssc.StreamingContext(sc, 30)
spark = SparkSession(sc)

kafkaStream = KafkaUtils.createStream(ssc, zookeeper_ip, 'group-id', {'messages': 1})

counted = kafkaStream.count()
...
我的目标是按照

kafkaStream.seekToBeginningOfTopic()
目前,我正在创建一个新的消费者群体,以便从主题开始重新阅读,例如:

kafkaStream = KafkaUtils.createStream(ssc, zookeeper, 'group-id-2', {'messages': 1}, {"auto.offset.reset": "smallest"})

这是使用PySpark从一开始就使用主题的正确方式吗

您可以为所有订阅的分区提交偏移量0。