Pyspark:保存sql.dataframe时出现内存错误_Pyspark

Pyspark:保存sql.dataframe时出现内存错误

pyspark

Pyspark:保存sql.dataframe时出现内存错误,pyspark,Pyspark,我有一个pyspark.sql.DataFrame，我想保存为.csv。这就是我正在做的 df.toPandas().to_csv('myDF.csv') 是否可以将数据划分为不同的数据块并将其保存为单独的文件？您可以使用以下方法实现此目的 df.repartition() df.coalesce(<integer value to number of file you want>).write.csv() df.repartition（） df.coalesce（）.write

我有一个

pyspark.sql.DataFrame

，我想保存为

.csv

。这就是我正在做的

df.toPandas().to_csv('myDF.csv')

是否可以将数据划分为不同的数据块并将其保存为单独的文件？

您可以使用以下方法实现此目的

df.repartition()
df.coalesce(<integer value to number of file you want>).write.csv()

df.repartition（）
df.coalesce（）.write.csv（）

不要将spark dataframe转换为pandas，直接将其保存到文件中

您可以参考转换为pandas的原因（这会导致内存异常），您可以直接编写df.write.csv（'myDF.csv'）@RangaVure谢谢，我将以不同的方式尝试。我认为这一步是必要的。我有以下错误：

TypeError:repartition（）缺少1个必需的位置参数：“numPartitions”

df.repartition（100）.write.csv（）