Apache spark Spark-忽略Dataset.as[SomeCaseClass]的不存在列

Apache spark Spark-忽略Dataset.as[SomeCaseClass]的不存在列,apache-spark,Apache Spark,Spark Dataset.as函数为未找到的列引发异常-org.apache.Spark.sql.AnalysisException:无法解析给定输入列[attr_1,attr_2]的“attr_3” case class SomeCaseClass(attr_1: String, attr_2: Long, attr_3: String) spark.read.parquet("some_directory").as[SomeCaseClass] 有没有办法避免这种异

Spark Dataset.as函数为未找到的列引发异常-
org.apache.Spark.sql.AnalysisException:无法解析给定输入列[attr_1,attr_2]的“attr_3”

case class SomeCaseClass(attr_1: String, attr_2: Long, attr_3: String)

spark.read.parquet("some_directory").as[SomeCaseClass]

有没有办法避免这种异常,并为不存在的列设置null?

在阅读时指定
模式
,因为模式为不存在的列添加null值,然后转换为
数据集

示例:

case class SomeCaseClass(attr_1: String, attr_2: Long, attr_3: String)

val sch=Seq[SomeCaseClass]().toDF.schema

spark.read.schema(SomeCaseClass).parquet("some_directory").as[SomeCaseClass]

“某些目录”中是否有可用的
attr\u 3
?你能发布
spark.read.parquet(“一些目录”).printSchema()