Apache spark 读取或写入拼花地板格式数据时出错_Apache Spark_Parquet_Databricks_Azure Databricks

Apache spark 读取或写入拼花地板格式数据时出错

apache-spark

Apache spark 读取或写入拼花地板格式数据时出错,apache-spark,parquet,databricks,azure-databricks,Apache Spark,Parquet,Databricks,Azure Databricks,我已经创建了一个外部表，指向带有拼花地板存储的Azure ADL，在将数据插入该表时，我得到以下错误。我正在使用数据记录卡执行死刑 org.apache.spark.sql.AnalysisException: Multiple sources found for parquet (org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.spark.sql.execution.da

我已经创建了一个外部表，指向带有拼花地板存储的Azure ADL，在将数据插入该表时，我得到以下错误。我正在使用数据记录卡执行死刑

org.apache.spark.sql.AnalysisException: Multiple sources found for parquet (org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat), please specify the fully qualified class name.;

这是完美的工作罚款昨天，我已经开始得到这个错误从今天开始

我在互联网上找不到任何关于为什么会发生这种情况的答案。

这个问题已经解决，错误的原因是，我们安装了Azure提供的spark sqldb连接器，带有uber jar，它还提供了dependencies wrt parquet file formatter。

如果您想在不清除依赖项的情况下解决问题。下面是如何选择其中一个源（以“org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat”为例）：

替换：

spark.read.parquet（“”）

与

spark.read.format（“org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat”）.load（“”）

是否有任何外部库部署到DataRicks上的集群？没有特定于parquet文件的库，我有一个用于cosmos spark connector的库。我怀疑它可能包括

spark sql

库的副本，那有拼花读取器。您的问题可能是由部署的较新版本的DB Runtime引起的。请在帖子中添加关于使用什么运行时以及cosmos db Library的版本的信息谢谢，这个问题已经解决了。错误的原因是，我们安装了Azure提供的spark sqldb连接器和uber jar，后者还获得了wrt parquet文件格式化程序。