Pyspark 无法通过spark流媒体读取kakfa消息

Pyspark 无法通过spark流媒体读取kakfa消息,pyspark,apache-kafka,spark-streaming,Pyspark,Apache Kafka,Spark Streaming,我们正在编写spark流应用程序,使用createStream方法读取kafka消息,批处理间隔为180秒 代码每隔180秒成功地工作并创建文件到s3存储桶中,但文件中没有消息。下面是环境 Spark 2.3.0 卡克法1.0 请把代码通读一遍,有什么问题请告诉我 创建上下文变量 连接到Kafka并创建流 提前感谢。您为什么不在S3中使用Kafka Connect?谢谢您的回复,但我们并不依赖confluent,我们只使用apche Kafka和spark,或者您建议创建自己的连接器。Kaf

我们正在编写spark流应用程序,使用createStream方法读取kafka消息,批处理间隔为180秒

代码每隔180秒成功地工作并创建文件到s3存储桶中,但文件中没有消息。下面是环境

Spark 2.3.0 卡克法1.0

请把代码通读一遍,有什么问题请告诉我


创建上下文变量 连接到Kafka并创建流

提前感谢。

您为什么不在S3中使用Kafka Connect?谢谢您的回复,但我们并不依赖confluent,我们只使用apche Kafka和spark,或者您建议创建自己的连接器。Kafka Connect是一个开源框架。Confluent只维护代码。任何能够运行Maven的人都应该能够编译S3Connect代码,并将其添加到普通的Kafka服务器上
#import dependencies
import findspark

findspark.init()

from pyspark import SparkContext

from pyspark.streaming import StreamingContext

from pyspark.streaming.kafka import KafkaUtils

import json

from pyspark.sql import *
sc = SparkContext(appName="SparkStreamingwithPython").getOrCreate()

sc.setLogLevel("WARN")

ssc = StreamingContext(sc,180)

topic="thirdtopic"

ZkQuorum = "localhost:2181"
kakfaStream = KafkaUtils.createStream(ssc,ZkQuorum,"Spark-Streaming-Consumer",{topic:1})

def WritetoS3(rdd):
     rdd.saveAsTextFile("s3://BucketName/thirdtopic/SparkOut")

kakfaStream.foreachRDD(WritetoS3)
ssc.start()

ssc.awaitTermination()