Apache spark 可以使用相同的代码读取csv或拼花文件
是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark 我在这里的用例是,在生产中,我将使用大型拼花文件,但对于单元测试,我希望使用CSV。我使用的代码如下:Apache spark 可以使用相同的代码读取csv或拼花文件,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,是否有人知道是否可以使用相同的代码将csv或拼花地板文件读入spark 我在这里的用例是,在生产中,我将使用大型拼花文件,但对于单元测试,我希望使用CSV。我使用的代码如下: spark.read().schema(schema).load(path); 在CSV情况下,此操作失败,但出现以下例外情况: file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9,
spark.read().schema(schema).load(path);
在CSV情况下,此操作失败,但出现以下例外情况:
file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [78, 9, 78, 10]
我怀疑spark默认为拼花地板,这不起作用,但我想先检查一下未提及格式()
则spark默认读取拼花地板文件
如果您正在阅读csv文件,那么我们需要提及.format(“csv”)
以让spark知道我们正在尝试读取csv文件,否则spark会将该文件读取为拼花
spark.read.format(“csv”).schema(schema).load(path)
您的路径形式是什么?不管怎样,我认为你应该设置格式。我有一个类似的用例。我认为spark现在应该有一种机制来检测文件的类型(CSV、拼花),并使用单个API读取文件:/