Apache spark 来自DataRicks的apache.avro和spark avro之间的差异

Apache spark 来自DataRicks的apache.avro和spark avro之间的差异,apache-spark,Apache Spark,我是spark的新手,想处理avro文件,但我不知道您应该使用哪个库,org.apache.avro或来自databricks的spark avro,我不知道这两者之间的实际区别。在spark 2.4之前,avro没有官方的spark支持,因此,任何想在Spark中使用Avro的人都必须使用Databricks库。随着Spark 2.4的发布,Databricks库已经迁移到Spark中,Databricks库现在已经存档 因此,如果您使用的是Spark 2.4,您应该使用Avro的内置版本,但

我是spark的新手,想处理avro文件,但我不知道您应该使用哪个库,org.apache.avro或来自databricks的spark avro,我不知道这两者之间的实际区别。

在spark 2.4之前,avro没有官方的spark支持,因此,任何想在Spark中使用Avro的人都必须使用Databricks库。随着Spark 2.4的发布,Databricks库已经迁移到Spark中,Databricks库现在已经存档

因此,如果您使用的是Spark 2.4,您应该使用Avro的内置版本,但是对于Spark的早期版本,您需要使用Databricks版本

资料来源:

  • 报告说:

    从Spark 2.4.0开始,Databricks已将此库捐赠给Apache Spark项目

  • 解释向Spark 2.4迁移的方法