Apache spark Kafka结构化流java.lang.NoClassDefFoundError_Apache Spark_Pyspark_Apache Kafka_Spark Structured Streaming

Apache spark Kafka结构化流java.lang.NoClassDefFoundError

apache-spark pyspark apache-kafka

Apache spark Kafka结构化流java.lang.NoClassDefFoundError,apache-spark,pyspark,apache-kafka,spark-structured-streaming,Apache Spark,Pyspark,Apache Kafka,Spark Structured Streaming,我以前能够运行Kafka structure流媒体编程。但突然间，我所有的结构化流式python程序都出现了错误。我从Spark网站上获取了基本的卡夫卡结构流媒体编程，但同样失败了 py4j.protocol.Py4JJavaError:调用o31.load时出错。：java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraydSerializer 位于org.apache.spark.sql.k

我以前能够运行Kafka structure流媒体编程。但突然间，我所有的结构化流式python程序都出现了错误。我从Spark网站上获取了基本的卡夫卡结构流媒体编程，但同样失败了

py4j.protocol.Py4JJavaError:调用o31.load时出错。：java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraydSerializer 位于org.apache.spark.sql.kafka010.KafkaSourceProvider$.KafkaSourceProvider.scala:376 位于org.apache.spark.sql.kafka010.KafkaSourceProvider$.KafkaSourceProvider.scala

我用的是什么

spark提交-软件包 spark:spark-sql-kafka-0-10_2.11:2.2.0 C:\Users\ranjith.gangam\PycharmProjects\sparktest\Structured\u streaming.py

这是我从Spark github获取的代码

火花=火花会话\ 建筑商先生\ .appnamestructuredkafcawordcount\ .getOrCreate 创建表示kafka输入行流的数据集线=火花\ .readStream\ 卡夫卡先生\ .optionkafka.bootstrap.servers，bootstrapServers\ .选项订阅类型、主题\ .装载\ 。选择ExprcastValue作为字符串单词=行。选择分解将数组中的每个项转换为单独的行爆炸 splitlines.value“' .别名“word” 生成运行字数 wordCounts=words.groupBy'word'.count 开始运行将运行计数打印到控制台的查询查询=字数\ .writeStream\ .outputMode“完成”\ .格式为“控制台”\ 开始查询.等待终止

您的方法是正确的，但不幸的是，PySpark尚未支持Kafka 0.10。正如你在照片中看到的

到目前为止，pySpark的唯一支持是Kafka 0.8。因此，您可以迁移到spark 0.8或将代码更改为Scala。

在添加spark-streaming-kafka-0-10-assembly_2.10:2.2包后，它可以正常工作。0@ranjithreddy你能把你的评论作为答案吗？这样就很容易找到了。谢谢