java.lang.ClassCastException:java.lang.String不能转换为scala.collection.Seq_Scala_Apache Spark

java.lang.ClassCastException:java.lang.String不能转换为scala.collection.Seq

scala apache-spark

java.lang.ClassCastException:java.lang.String不能转换为scala.collection.Seq,scala,apache-spark,Scala,Apache Spark,我正在做这样的事情 val domainList = data1.select("columnname","domainvalues").where(col("domainvalues").isNotNull).map(r => (r.getString(0), r.getList[String](1).asScala.toList)).collect() domainList的类型应为Array[（String，List[String]）] 对于输入DF： +------------

我正在做这样的事情

val domainList = data1.select("columnname","domainvalues").where(col("domainvalues").isNotNull).map(r =>  (r.getString(0), r.getList[String](1).asScala.toList)).collect()

domainList的类型应为Array[（String，List[String]）]

对于输入DF：

+-------------+----------------------------------------+
|columnname   |domainvalues                            |
+-------------+----------------------------------------+
|predchurnrisk|Very High,High,Medium,Low               |
|userstatus   |Active,Lapsed,Renew                     |
|predinmarket |Very High,High,Medium,Low               |
|predsegmentid|High flyers,Watching Pennies,Big pockets|
|usergender   |Male,Female,Others                      |
+-------------+----------------------------------------+

我得到的错误是

java.lang.ClassCastException: java.lang.String cannot be cast to scala.collection.Seq
    at org.apache.spark.sql.Row$class.getSeq(Row.scala:283)
    at org.apache.spark.sql.catalyst.expressions.GenericRow.getSeq(rows.scala:166)
    at org.apache.spark.sql.Row$class.getList(Row.scala:291)
    at org.apache.spark.sql.catalyst.expressions.GenericRow.getList(rows.scala:166)
    at com.fis.sdi.ade.batch.SFTP.Test$$anonfun$6.apply(Test.scala:53)
    at com.fis.sdi.ade.batch.SFTP.Test$$anonfun$6.apply(Test.scala:53)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage2.mapelements_doConsume_0$(Unknown Source)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage2.deserializetoobject_doConsume_0$(Unknown Source)

如何解决此问题？

看起来您的第二列包含字符串值，您可以使用

df.printSchema（）

进行检查。在这种情况下，您可以尝试使用

.split（“，”）

看起来第二列包含字符串值，您可以使用

df.printSchema（）

进行检查。在这种情况下，您可以尝试使用

.split（“，”）

这意味着行的

元素是字符串而不是集合。请共享一些输入数据和预期输出。我已更新了问题。您能检查一下吗？这意味着行的

元素是字符串而不是集合。请共享一些输入数据和预期输出。我已更新了问题。你能检查一下吗？

.map(r =>  (r.getString(0), r.getString(1).split(",")).collect()