Pyspark Dataframe写入拼花地板分区文件夹名称

Pyspark Dataframe写入拼花地板分区文件夹名称,pyspark,parquet,Pyspark,Parquet,假设我有一个数据框,我想用year写为分区拼花地板。 现在文件夹结构是 /parquettable/year=2021/*.parquet /parquettable/year=2020/*.parquet.......etc. 我可以将其设置为/parquettable/2021/*.parquet?技术上,您总是可以在编写文件夹后重命名它,因此您的问题的答案是是,您可以将其设置为/parquettable/2021/*.parquet 但是你不应该这样做,因为模式year=2021帮助Hi

假设我有一个数据框,我想用year写为分区拼花地板。
现在文件夹结构是

/parquettable/year=2021/*.parquet
/parquettable/year=2020/*.parquet.......etc.

我可以将其设置为
/parquettable/2021/*.parquet

技术上,您总是可以在编写文件夹后重命名它,因此您的问题的答案是,您可以将其设置为
/parquettable/2021/*.parquet

但是你不应该这样做,因为模式
year=2021
帮助Hive和Spark知道他们在处理哪个分区(
year
)和哪个分区(
2021
)。您可以通过阅读了解这些分区文件夹的结构