Apache spark 使用pyspark将大型CSV文件转换为拼花地板

Apache spark 使用pyspark将大型CSV文件转换为拼花地板,apache-spark,pyspark,Apache Spark,Pyspark,我正在将一个大的CSV文件转换为拼花文件(pyspark),虽然它看起来很好,但直到行数达到一定的范围之后,我在读取它时始终会出现以下错误 Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695 然而,当我将CSV作为拼花文件编写时,它并没有抱怨。是否有处理大型CSV文件所需的特定配置?能否显示

我正在将一个大的CSV文件转换为拼花文件(pyspark),虽然它看起来很好,但直到行数达到一定的范围之后,我在读取它时始终会出现以下错误

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

然而,当我将CSV作为拼花文件编写时,它并没有抱怨。是否有处理大型CSV文件所需的特定配置?

能否显示您使用的代码?我使用df.write.parquet(file_tmp,mode='overwrite')然后使用FileUtil复制和合并文件。我发现拼花地板文件在达到一定大小后已损坏。我已重新分区并编写了它。这很有效!!df.repartition(1).write.parquet(文件\u tmp,mode='overwrite')