Pyspark:保存sql.dataframe时出现内存错误

Pyspark:保存sql.dataframe时出现内存错误,pyspark,Pyspark,我有一个pyspark.sql.DataFrame,我想保存为.csv。这就是我正在做的 df.toPandas().to_csv('myDF.csv') 是否可以将数据划分为不同的数据块并将其保存为单独的文件?您可以使用以下方法实现此目的 df.repartition() df.coalesce(<integer value to number of file you want>).write.csv() df.repartition() df.coalesce().write

我有一个
pyspark.sql.DataFrame
,我想保存为
.csv
。这就是我正在做的

df.toPandas().to_csv('myDF.csv')

是否可以将数据划分为不同的数据块并将其保存为单独的文件?

您可以使用以下方法实现此目的

df.repartition()
df.coalesce(<integer value to number of file you want>).write.csv()
df.repartition()
df.coalesce().write.csv()

不要将spark dataframe转换为pandas,直接将其保存到文件中

您可以参考转换为pandas的原因(这会导致内存异常),您可以直接编写df.write.csv('myDF.csv')@RangaVure谢谢,我将以不同的方式尝试。我认为这一步是必要的。我有以下错误:
TypeError:repartition()缺少1个必需的位置参数:“numPartitions”
df.repartition(100).write.csv()