Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Apache Spark 2.0(PySpark)-数据帧错误-找到csv的多个源_Apache Spark_Pyspark_Pyspark Sql - Fatal编程技术网

Apache spark Apache Spark 2.0(PySpark)-数据帧错误-找到csv的多个源

Apache spark Apache Spark 2.0(PySpark)-数据帧错误-找到csv的多个源,apache-spark,pyspark,pyspark-sql,Apache Spark,Pyspark,Pyspark Sql,我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时,我面临以下错误。有人能帮我摆脱这个错误吗 错误: Py4JJavaError:调用o34.csv时出错。 :java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源,请指定完全限

我正在尝试使用Spark 2.0中的以下代码创建数据帧。在Jupyter/Console中执行代码时,我面临以下错误。有人能帮我摆脱这个错误吗

错误:

Py4JJavaError:调用o34.csv时出错。 :java.lang.RuntimeException:找到csv org.apache.spark.sql.execution.datasources.csv.CSVFileFormat、com.databricks.spark.csv.DefaultSource15的多个源,请指定完全限定的类名。 在scala.sys.package$.errorpackage.scala:27

代码:


错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个

您只需通过将格式选项定义为,告诉spark使用com.databricks.spark.csv.DefaultSource即可

  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .csv("/home/senthiljdpm/RealEstate.csv")
另一种选择是使用load作为


错误是因为类路径中必须同时包含org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource两个库。斯帕克不知道该选哪一个

您只需通过将格式选项定义为,告诉spark使用com.databricks.spark.csv.DefaultSource即可

  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .csv("/home/senthiljdpm/RealEstate.csv")
另一种选择是使用load作为


如果有人在Spark Java中遇到类似的问题,可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。

如果有人在Spark Java中遇到类似问题,可能是因为您的类路径中有多个版本的Spark sql jar。仅供参考。

谢谢Ramesh。。但即使在添加了您建议编辑的行之后,也会遇到相同的错误。谢谢拉梅什。。但是有什么不同呢?谢谢Ramesh。。但即使在添加了您建议编辑的行之后,也会遇到相同的错误。谢谢拉梅什。。但有什么区别?我怎么知道?我找到了多个jsonI源代码,我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是:pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源,请指定完全限定的类名。;我怎么知道?我找到了多个jsonI源代码,我正在使用spark 3并将旧代码迁移到spark 3。我得到的错误是:pyspark.sql.utils.AnalysisException:找到了json org.apache.spark.sql.execution.datasources.v2.json.JsonDataSourceV2、org.apache.spark.sql.execution.datasources.json.JsonFileFormat的多个源,请指定完全限定的类名。;
  df = session \
       .read \
       .format("com.databricks.spark.csv") \
       .option("inferSchema", value = True) \
       .option('header','true') \
       .load("/home/senthiljdpm/RealEstate.csv")