Apache spark 保存PySpark数据帧时访问拼花地板文件名中的唯一键（writeJobUUID）_Apache Spark_Pyspark_Spark Dataframe_Parquet

Apache spark 保存PySpark数据帧时访问拼花地板文件名中的唯一键（writeJobUUID）

apache-spark pyspark

Apache spark 保存PySpark数据帧时访问拼花地板文件名中的唯一键（writeJobUUID）,apache-spark,pyspark,spark-dataframe,parquet,Apache Spark,Pyspark,Spark Dataframe,Parquet,我正在寻找一种方法，在使用PySpark将Spark数据框保存为parquet时访问parquet文件名的唯一部分我只是想了解一下，更改DataFrame.write（）的输出文件名前缀是不可能的，尽管我想知道是否有办法访问RecordWriter中用于构建文件名的值我看了一下，发现它是configuration.get（“spark.sql.sources.writeJobUUID”），这个属性是否更早初始化，是否也可以通过PySpark访问我想将其用于日志记录目的，将特定的Spark作

我正在寻找一种方法，在使用PySpark将Spark数据框保存为parquet时访问parquet文件名的唯一部分

我只是想了解一下，更改DataFrame.write（）的输出文件名前缀是不可能的，尽管我想知道是否有办法访问RecordWriter中用于构建文件名的值

我看了一下，发现它是configuration.get（“spark.sql.sources.writeJobUUID”），这个属性是否更早初始化，是否也可以通过PySpark访问

我想将其用于日志记录目的，将特定的Spark作业与写入的拼花文件相匹配（例如，我可以删除不同输出分区中特定作业的所有输出）。

您最好向数据中添加某种JobID，通过该列进行分区-这样每个作业都会创建自己的分区，您可以在以后随意读取/写入/删除这些分区，而无需深入了解拼花地板的内部结构。感谢Tzach，这确实不是一个坏主意，尽管我们已经使用了很多分区，并且热衷于探索此选项。我想那不是那么直截了当的。。