Apache spark java.lang.ClassCastException:无法分配scala.collection.immutable.List$SerializationProxy的实例 我正在处理从SpringBatch java应用程序到spark cleaning的csv文件 清理文件写入集群中的拼花地板 获取序列化异常

Apache spark java.lang.ClassCastException:无法分配scala.collection.immutable.List$SerializationProxy的实例 我正在处理从SpringBatch java应用程序到spark cleaning的csv文件 清理文件写入集群中的拼花地板 获取序列化异常,apache-spark,Apache Spark,原因:java.lang.ClassCastException:无法将scala.collection.immutable.List$SerializationProxy的实例分配给org.apache.spark.rdd.rdd.org$apache$spark$rdd$rdd$$dependencies类型的字段org.apache.spark.rdd.rdd 位于java.io.ObjectStreamClass$FieldReflector.SetObjJFieldValues(Obje

原因:java.lang.ClassCastException:无法将scala.collection.immutable.List$SerializationProxy的实例分配给org.apache.spark.rdd.rdd.org$apache$spark$rdd$rdd$$dependencies类型的字段org.apache.spark.rdd.rdd 位于java.io.ObjectStreamClass$FieldReflector.SetObjJFieldValues(ObjectStreamClass.java:2287)


运行此代码时,我收到了相同的错误消息:

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
import org.apache.spark.ml.clustering.LDA
import org.apache.spark.sql.functions.udf
import scala.collection.mutable.WrappedArray

val txt = Array("A B B C", "A B D D", "A C D")
val txtDf     = spark.sparkContext.parallelize(txt).toDF("txt")
val txtDfSplit = txtDf.withColumn("txt", split(col("txt"), " "))

// val txtDfSplit = df.withColumn("txt", split(col("txt"), " "))

// create sparse vector with the number 
// of occurrences of each word using CountVectorizer
val cvModel = new CountVectorizer().setInputCol("txt").setOutputCol("features").setVocabSize(4).setMinDF(2).fit(txtDfSplit)

val txtDfTrain = cvModel.transform(txtDfSplit)
txtDfTrain.show(false)
产生以下错误:

org.apache.spark.sparkeexception:由于阶段失败,作业中止: 阶段1.0中的任务9失败4次,最近一次失败:丢失任务9.3 在阶段1.0(TID 25,somehostname.domain,executor 1)中: java.lang.ClassCastException:无法分配的实例 scala.collection.immutable.List$SerializationProxy to字段 org.apache.spark.rdd.rdd.org$apache$spark$rdd$rdd$$dependencies\uuuOf 在的实例中键入scala.collection.Seq org.apache.spark.rdd.MapPartitionsRDD


我一直在浏览描述此错误的各种页面,似乎存在某种版本冲突。代码在IntelliJ(单机版)中工作。我在将应用程序提交给Spark时收到错误。

欢迎使用StackOverflow!这不是一个好的提问方式。我想你应该先看一下“帮助我”部分。你能弄明白吗?我也遇到了同样的错误。