Apache spark 写拼花地板文件时可以重叠分区吗_Apache Spark_Amazon S3_Pyspark_Parquet_Hadoop Partitioning

Apache spark 写拼花地板文件时可以重叠分区吗

apache-spark amazon-s3 pyspark

Apache spark 写拼花地板文件时可以重叠分区吗,apache-spark,amazon-s3,pyspark,parquet,hadoop-partitioning,Apache Spark,Amazon S3,Pyspark,Parquet,Hadoop Partitioning,我有一个大约2TB大小的非常大的数据帧。我可以按两列对它们进行分区：MODULE和DATE 如果我按模块对它们进行划分，则每个模块可以具有相同的日期，例如模块A可能具有日期2020-07-01、2020-07-02和模块B可能具有日期2020-07-01、2020-07-05等。我需要首先按模块对它们进行分区并进行一些聚合和联接，然后再按日期对它们进行分区和存储。我正在使用pyspark进行编码在按模块进行聚合和连接之后，我将把它附加到一个拼花文件中，并将整个拼花文件加载到一个数据帧中，然

我有一个大约2TB大小的非常大的数据帧。我可以按两列对它们进行分区：

MODULE

和

DATE

如果我按

模块

对它们进行划分，则每个模块可以具有相同的日期，例如

模块A

可能具有日期

2020-07-01、2020-07-02

和

模块B

可能具有日期

2020-07-01、2020-07-05

等。我需要首先按

模块对它们进行分区

并进行一些聚合和联接，然后再按

日期对它们进行分区和存储。我正在使用pyspark进行编码
在按模块进行聚合和连接之后，我将把它附加到一个拼花文件中，并将整个拼花文件加载到一个数据帧中，然后按日期对其进行分区。
问题是spark作业由于内存问题而终止。
在模块中分区时，是否可以直接按日期分区？
所以分区看起来像这样：
输入格式：s3://path/MODULE=A-->s3://path/DATE=2020-07-01
其中两个模块A
和B
都存在于分区DATE=2020-07-01

这是我的原始代码，由于在群集中的时间过长和内存不足而失败：
inpath="s3://path/file/"
outpath="s3://path/file_tmp.parquet"
fs = s3fs.S3FileSystem(anon=False)
uvaDirs = fs.ls(inpath)

#Load Data by Module
for uvapath in uvaDirs:
    customPath='s3://' + uvapath + '/'
    df1=spark.read.parquet(customPath)
    #Perform aggregations and joins
    df1.write.mode('append').parquet(outpath)
    
# Load - partition by date
df2=spark.read.parquet("s3://path/file_tmp.parquet")
df2.write.mode('overwrite').partitionBy("DATE").parquet("s3://path/final.parquet")

它成功地创建了文件\u tmp.parquet，但在按日期加载和分区时失败。
任何帮助都将不胜感激！
谢谢
像delta datasource一样可以做到这一点，delta存储为拼花地板
(spark.read
 .format("delta")
 .load(path)
 .where(partition)
 .repartition(numFilesPerPartition)
 .write
 .option("dataChange", "false")
 .format("delta")
 .mode("overwrite")
 .option("replaceWhere", partition)
 .save(path))

// clean old file
val deltaTable = DeltaTable.forPath(spark, tablePath)
deltaTable.vacuum(0)

请参阅：
谢谢。这是一种很好的随机划分到特定大小块的方法。但是在我以delta格式保存它之后，我是否需要再次加载整个拼花地板以按日期分割并保存它？