Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 可以使用相同的代码读取csv或拼花文件_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 可以使用相同的代码读取csv或拼花文件

Apache spark 可以使用相同的代码读取csv或拼花文件,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark 我在这里的用例是,在生产中,我将使用大型拼花文件,但对于单元测试,我希望使用CSV。我使用的代码如下: spark.read().schema(schema).load(path); 在CSV情况下,此操作失败,但出现以下例外情况: file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9,

是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark

我在这里的用例是,在生产中,我将使用大型拼花文件,但对于单元测试,我希望使用CSV。我使用的代码如下:

spark.read().schema(schema).load(path);
在CSV情况下,此操作失败,但出现以下例外情况:

file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9, 78, 10]
我怀疑spark默认为拼花地板,这不起作用,但我想先检查一下未提及
格式()
则spark默认读取
拼花地板文件

如果您正在阅读csv文件,那么我们需要提及
.format(“csv”)
以让spark知道我们正在尝试读取csv文件,否则spark会将该文件读取为拼花


spark.read.format(“csv”).schema(schema).load(path)

您的路径形式是什么?不管怎样,我认为你应该设置格式。我有一个类似的用例。我认为spark现在应该有一种机制来检测文件的类型(CSV、拼花),并使用单个API读取文件:/