Python 如何删除Spark上的拼花地板文件?

Python 如何删除Spark上的拼花地板文件?,python,apache-spark,parquet,Python,Apache Spark,Parquet,我使用DataFrame.saveAsParquet()命令在Spark上保存了一个拼花地板文件 如何通过python代码删除/删除此文件?此拼花地板“文件”实际上是一个目录。显示如何删除包含文件的目录 import shutil shutil.rmtree('/folder_name') 既然@bsplosion提到了HDFS,下面是如何在pySpark脚本中实现它: 导入子流程 打印(“删除代码:”,子流程调用([“hadoop”、“fs”、“-rm”、“-r”、“-skipTrash”、

我使用
DataFrame.saveAsParquet()
命令在Spark上保存了一个拼花地板文件

如何通过python代码删除/删除此文件?

此拼花地板“文件”实际上是一个目录。显示如何删除包含文件的目录

import shutil
shutil.rmtree('/folder_name')

既然@bsplosion提到了HDFS,下面是如何在pySpark脚本中实现它:

导入子流程
打印(“删除代码:”,子流程调用([“hadoop”、“fs”、“-rm”、“-r”、“-skipTrash”、“hdfs:/your/data/path”]))
#hadoop-调用hadoop
#fs-调用hadoops文件系统实现
#-rm-调用remove命令
#-r-递归删除以删除整个目录
#-skipTrash-如其所述:跳过垃圾,直接清除所有东西
如果执行成功,则返回删除代码:0,否则返回删除代码:-1。
您可以在文档中阅读更多关于hadoops
-rm

它不使用正斜杠。rmtree('folder_name')注意,这只适用于操作系统,不适用于HDFS、S3或Spark中使用的拼花文件的无数其他常见位置。