toPandas csv后pyspark数据框中的问题
我在toPandas csv后pyspark数据框中的问题,pandas,csv,pyspark,Pandas,Csv,Pyspark,我在pyspark.sql.dataframe.dataframe中有一个数据框,我将其转换为pandas dataframe,然后将其保存为csv文件。在csv中打开时,我发现字段中有空值的列变成了\“\” 我返回spark dataframe.toPandas()当我检查其中一列值时,我看到这个空白字符串。 dfpandas.colX[2]给出这个res:' 我使用了这种csv保存 df_sparksql.repartition(1).write.format('com.databricks
pyspark.sql.dataframe.dataframe
中有一个数据框,我将其转换为pandas dataframe,然后将其保存为csv文件。在csv中打开时,我发现字段中有空值的列变成了\“\”
我返回spark dataframe.toPandas()当我检查其中一列值时,我看到这个空白字符串。
dfpandas.colX[2]
给出这个res:'
我使用了这种csv保存
df_sparksql.repartition(1).write.format('com.databricks.spark.csv').save("/data/rep//CLT_20200729csv",
header = 'true',)
我也使用了这种保存方法,但导致内存中断
df = df_per_mix.toPandas()
df.to_csv("/data/rep//CLT_20200729.csv",sep=";", index=False)
<> P>是什么问题以及如何将空白空间转换为<代码> \ \ \ /代码>?