Apache spark Apache Spark 2.0(PySpark)-数据帧错误-找到csv的多个源
我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时,我面临以下错误。有人能帮我摆脱这个错误吗 错误: Py4JJavaError:调用o34.csv时出错。 :java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源,请指定完全限定的类名。 在scala.sys.package$.errorpackage.scala:27 代码:Apache spark Apache Spark 2.0(PySpark)-数据帧错误-找到csv的多个源,apache-spark,pyspark,pyspark-sql,Apache Spark,Pyspark,Pyspark Sql,我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时,我面临以下错误。有人能帮我摆脱这个错误吗 错误: Py4JJavaError:调用o34.csv时出错。 :java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源,请指定完全限
错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个 您只需通过将格式选项定义为,告诉spark使用com.databricks.spark.csv.DefaultSource即可
df = session \
.read \
.format("com.databricks.spark.csv") \
.option("inferSchema", value = True) \
.option('header','true') \
.csv("/home/senthiljdpm/RealEstate.csv")
另一种选择是使用load作为
错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个 您只需通过将格式选项定义为,告诉spark使用com.databricks.spark.csv.DefaultSource即可
df = session \
.read \
.format("com.databricks.spark.csv") \
.option("inferSchema", value = True) \
.option('header','true') \
.csv("/home/senthiljdpm/RealEstate.csv")
另一种选择是使用load作为
如果有人在Spark Java中遇到类似的问题,可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。如果有人在Spark Java中遇到类似问题,可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。谢谢Ramesh。。但即使在添加了您建议编辑的行之后,也会遇到相同的错误。谢谢拉梅什。。但是有什么不同呢?谢谢Ramesh。。但即使在添加了您建议编辑的行之后,也会遇到相同的错误。谢谢拉梅什。。但有什么区别?我怎么知道?我找到了多个jsonI源代码,我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是:pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源,请指定完全限定的类名。;我怎么知道?我找到了多个jsonI源代码,我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是:pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源,请指定完全限定的类名。;
df = session \
.read \
.format("com.databricks.spark.csv") \
.option("inferSchema", value = True) \
.option('header','true') \
.load("/home/senthiljdpm/RealEstate.csv")