Apache spark Apache Spark 2.0（PySpark）-数据帧错误-找到csv的多个源_Apache Spark_Pyspark_Pyspark Sql

Apache spark Apache Spark 2.0（PySpark）-数据帧错误-找到csv的多个源

apache-spark pyspark

Apache spark Apache Spark 2.0（PySpark）-数据帧错误-找到csv的多个源,apache-spark,pyspark,pyspark-sql,Apache Spark,Pyspark,Pyspark Sql,我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时，我面临以下错误。有人能帮我摆脱这个错误吗错误： Py4JJavaError:调用o34.csv时出错。：java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源，请指定完全限

我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时，我面临以下错误。有人能帮我摆脱这个错误吗

错误：

Py4JJavaError:调用o34.csv时出错。：java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源，请指定完全限定的类名。在scala.sys.package$.errorpackage.scala:27

代码：

错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个

您只需通过将格式选项定义为，告诉spark使用com.databricks.spark.csv.DefaultSource即可

  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .csv("/home/senthiljdpm/RealEstate.csv")

另一种选择是使用load作为

错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个

您只需通过将格式选项定义为，告诉spark使用com.databricks.spark.csv.DefaultSource即可

  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .csv("/home/senthiljdpm/RealEstate.csv")

另一种选择是使用load作为

如果有人在Spark Java中遇到类似的问题，可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。

如果有人在Spark Java中遇到类似问题，可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。

谢谢Ramesh。。但即使在添加了您建议编辑的行之后，也会遇到相同的错误。谢谢拉梅什。。但是有什么不同呢？谢谢Ramesh。。但即使在添加了您建议编辑的行之后，也会遇到相同的错误。谢谢拉梅什。。但有什么区别？我怎么知道？我找到了多个jsonI源代码，我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是：pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源，请指定完全限定的类名。；我怎么知道？我找到了多个jsonI源代码，我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是：pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源，请指定完全限定的类名。；

  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .load("/home/senthiljdpm/RealEstate.csv")