如何在单个csv文件中保存pyspark数据帧

如何在单个csv文件中保存pyspark数据帧,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,这是该线程的延续 我正在尝试将pyspark数据帧df保存在pyspark 3.0.1中。所以我写了 df.coalesce(1).write.csv('mypath/df.csv) 但在执行此操作之后,我在mypath中看到一个名为df.csv的文件夹,其中包含以下4个文件 1._committed_.. 2._started_... 3._Success 4. part-00000-.. .csv 您能建议我如何将所有数据保存在df.csv中吗?如果您想将一个名为df.csv的文件作

这是该线程的延续

我正在尝试将pyspark数据帧df保存在pyspark 3.0.1中。所以我写了

df.coalesce(1).write.csv('mypath/df.csv)
但在执行此操作之后,我在mypath中看到一个名为df.csv的文件夹,其中包含以下4个文件

1._committed_..
2._started_...
3._Success  
4. part-00000-.. .csv

您能建议我如何将所有数据保存在
df.csv
中吗?

如果您想将一个名为
df.csv
的文件作为输出,您可以先写入一个临时文件夹,然后移动Spark生成的零件文件并重命名它

这些步骤可以通过JVM网关使用available完成:

temp_path = "mypath/__temp"
target_path = "mypath/df.csv"

df.coalesce(1).write.mode("overwrite").csv(temp_path)

Path = sc._gateway.jvm.org.apache.hadoop.fs.Path

# get the part file generated by spark write
fs = Path(temp_path).getFileSystem(sc._jsc.hadoopConfiguration())
csv_part_file = fs.globStatus(Path(temp_path + "/part*"))[0].getPath()

# move and rename the file
fs.rename(csv_part_file, Path(target_path))
fs.delete(Path(temp_path), True)

您可以使用
重新分区(1)
将文件保存在一个csv分区中,然后重命名此csv并将其移动到所需文件夹

下面是一个函数,用于:

df
:您的df
fileName
:要为csv文件指定的名称
filePath
:要保存到的文件夹

def export_csv(df, fileName, filePath):
  
  filePathDestTemp = filePath + ".dir/" 

  df\
    .repartition(1)\
    .write\
    .save(filePathDestTemp) 

  listFiles = dbutils.fs.ls(filePathDestTemp)
  for subFiles in listFiles:
    if subFiles.name[-4:] == ".csv":
      
      dbutils.fs.cp (filePathDestTemp + subFiles.name,  filePath + fileName+ '.csv')

  dbutils.fs.rm(filePathDestTemp, recurse=True)