Apache spark 保存PySpark数据帧时访问拼花地板文件名中的唯一键(writeJobUUID)

Apache spark 保存PySpark数据帧时访问拼花地板文件名中的唯一键(writeJobUUID),apache-spark,pyspark,spark-dataframe,parquet,Apache Spark,Pyspark,Spark Dataframe,Parquet,我正在寻找一种方法,在使用PySpark将Spark数据框保存为parquet时访问parquet文件名的唯一部分 我只是想了解一下,更改DataFrame.write()的输出文件名前缀是不可能的,尽管我想知道是否有办法访问RecordWriter中用于构建文件名的值 我看了一下,发现它是configuration.get(“spark.sql.sources.writeJobUUID”),这个属性是否更早初始化,是否也可以通过PySpark访问 我想将其用于日志记录目的,将特定的Spark作

我正在寻找一种方法,在使用PySpark将Spark数据框保存为parquet时访问parquet文件名的唯一部分

我只是想了解一下,更改DataFrame.write()的输出文件名前缀是不可能的,尽管我想知道是否有办法访问RecordWriter中用于构建文件名的值

我看了一下,发现它是configuration.get(“spark.sql.sources.writeJobUUID”),这个属性是否更早初始化,是否也可以通过PySpark访问


我想将其用于日志记录目的,将特定的Spark作业与写入的拼花文件相匹配(例如,我可以删除不同输出分区中特定作业的所有输出)。

您最好向数据中添加某种JobID,通过该列进行分区-这样每个作业都会创建自己的分区,您可以在以后随意读取/写入/删除这些分区,而无需深入了解拼花地板的内部结构。感谢Tzach,这确实不是一个坏主意,尽管我们已经使用了很多分区,并且热衷于探索此选项。我想那不是那么直截了当的。。