Apache spark 在spark数据帧中加载avro时如何合并模式?

Apache spark 在spark数据帧中加载avro时如何合并模式?,apache-spark,pyspark,avro,Apache Spark,Pyspark,Avro,我正在尝试使用读取avro文件,并且avro模式随着时间的推移而不断演变。我是这样读的,将mergeSchema选项设置为true,希望它能合并模式本身,但它不起作用 sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/') 解决方法是什么?spark中的avro文件没有实现合并模式,也没有简单的解决方法。一种解决方案

我正在尝试使用读取avro文件,并且avro模式随着时间的推移而不断演变。我是这样读的,将mergeSchema选项设置为
true
,希望它能合并模式本身,但它不起作用

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

解决方法是什么?

spark中的avro文件没有实现合并模式,也没有简单的解决方法。一种解决方案是将avro数据文件作为单独的数据集逐文件(或逐分区)读取,然后合并这些数据集。但这可能非常慢。

我也有同样的问题。你能解决它吗?是虫子吗?或者它可能是一个未实现的特性?你怎么知道“但它不起作用”?什么是错误/异常?@Zer001,它对我也不起作用,你找到解决方法了吗?