Pyspark 无法通过spark流媒体读取kakfa消息_Pyspark_Apache Kafka_Spark Streaming

Pyspark 无法通过spark流媒体读取kakfa消息

pyspark apache-kafka

Pyspark 无法通过spark流媒体读取kakfa消息,pyspark,apache-kafka,spark-streaming,Pyspark,Apache Kafka,Spark Streaming,我们正在编写spark流应用程序，使用createStream方法读取kafka消息，批处理间隔为180秒代码每隔180秒成功地工作并创建文件到s3存储桶中，但文件中没有消息。下面是环境 Spark 2.3.0 卡克法1.0 请把代码通读一遍，有什么问题请告诉我创建上下文变量连接到Kafka并创建流提前感谢。您为什么不在S3中使用Kafka Connect？谢谢您的回复，但我们并不依赖confluent，我们只使用apche Kafka和spark，或者您建议创建自己的连接器。Kaf

我们正在编写spark流应用程序，使用createStream方法读取kafka消息，批处理间隔为180秒

代码每隔180秒成功地工作并创建文件到s3存储桶中，但文件中没有消息。下面是环境

Spark 2.3.0 卡克法1.0

请把代码通读一遍，有什么问题请告诉我

创建上下文变量连接到Kafka并创建流

提前感谢。

您为什么不在S3中使用Kafka Connect？谢谢您的回复，但我们并不依赖confluent，我们只使用apche Kafka和spark，或者您建议创建自己的连接器。Kafka Connect是一个开源框架。Confluent只维护代码。任何能够运行Maven的人都应该能够编译S3Connect代码，并将其添加到普通的Kafka服务器上

#import dependencies
import findspark

findspark.init()

from pyspark import SparkContext

from pyspark.streaming import StreamingContext

from pyspark.streaming.kafka import KafkaUtils

import json

from pyspark.sql import *

sc = SparkContext(appName="SparkStreamingwithPython").getOrCreate()

sc.setLogLevel("WARN")

ssc = StreamingContext(sc,180)

topic="thirdtopic"

ZkQuorum = "localhost:2181"

kakfaStream = KafkaUtils.createStream(ssc,ZkQuorum,"Spark-Streaming-Consumer",{topic:1})

def WritetoS3(rdd):
     rdd.saveAsTextFile("s3://BucketName/thirdtopic/SparkOut")

kakfaStream.foreachRDD(WritetoS3)
ssc.start()

ssc.awaitTermination()