Apache spark 使用pyspark将大型CSV文件转换为拼花地板_Apache Spark_Pyspark

Apache spark 使用pyspark将大型CSV文件转换为拼花地板

apache-spark pyspark

Apache spark 使用pyspark将大型CSV文件转换为拼花地板,apache-spark,pyspark,Apache Spark,Pyspark,我正在将一个大的CSV文件转换为拼花文件（pyspark），虽然它看起来很好，但直到行数达到一定的范围之后，我在读取它时始终会出现以下错误 Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695 然而，当我将CSV作为拼花文件编写时，它并没有抱怨。是否有处理大型CSV文件所需的特定配置？能否显示

我正在将一个大的CSV文件转换为拼花文件（pyspark），虽然它看起来很好，但直到行数达到一定的范围之后，我在读取它时始终会出现以下错误

Expected 1503 values in column chunk /data.parquet offset 4 but got 6206 values instead over 1 pages ending at file offset 66695

然而，当我将CSV作为拼花文件编写时，它并没有抱怨。是否有处理大型CSV文件所需的特定配置？

能否显示您使用的代码？我使用df.write.parquet（file_tmp，mode='overwrite'）然后使用FileUtil复制和合并文件。我发现拼花地板文件在达到一定大小后已损坏。我已重新分区并编写了它。这很有效！！df.repartition（1）.write.parquet（文件\u tmp，mode='overwrite'）