Apache spark 使用PySpark寻找卡夫卡主题的开头_Apache Spark_Pyspark

Apache spark 使用PySpark寻找卡夫卡主题的开头

apache-spark pyspark

Apache spark 使用PySpark寻找卡夫卡主题的开头,apache-spark,pyspark,Apache Spark,Pyspark,在PySpark中使用卡夫卡流，是否可以在不创建新的消费群体的情况下寻找卡夫卡主题的开头例如，我有以下代码片段： ... import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell' from pyspark import SparkContext from pyspark.sql import Spa

在PySpark中使用卡夫卡流，是否可以在不创建新的消费群体的情况下寻找卡夫卡主题的开头

例如，我有以下代码片段：

...
import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell'
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext('local[2]', appName="MyStreamingApp_01")
sc.setLogLevel("INFO")
ssc.StreamingContext(sc, 30)
spark = SparkSession(sc)

kafkaStream = KafkaUtils.createStream(ssc, zookeeper_ip, 'group-id', {'messages': 1})

counted = kafkaStream.count()
...

我的目标是按照

kafkaStream.seekToBeginningOfTopic()

目前，我正在创建一个新的消费者群体，以便从主题开始重新阅读，例如：

kafkaStream = KafkaUtils.createStream(ssc, zookeeper, 'group-id-2', {'messages': 1}, {"auto.offset.reset": "smallest"})

这是使用PySpark从一开始就使用主题的正确方式吗

您可以为所有订阅的分区提交偏移量0。