Apache spark 写拼花地板文件时可以重叠分区吗
我有一个大约2TB大小的非常大的数据帧。 我可以按两列对它们进行分区:Apache spark 写拼花地板文件时可以重叠分区吗,apache-spark,amazon-s3,pyspark,parquet,hadoop-partitioning,Apache Spark,Amazon S3,Pyspark,Parquet,Hadoop Partitioning,我有一个大约2TB大小的非常大的数据帧。 我可以按两列对它们进行分区:MODULE和DATE 如果我按模块对它们进行划分,则每个模块可以具有相同的日期,例如模块A可能具有日期2020-07-01、2020-07-02和模块B可能具有日期2020-07-01、2020-07-05等。 我需要首先按模块对它们进行分区并进行一些聚合和联接,然后再按日期对它们进行分区和存储。我正在使用pyspark进行编码 在按模块进行聚合和连接之后,我将把它附加到一个拼花文件中,并将整个拼花文件加载到一个数据帧中,然
MODULE
和DATE
如果我按模块
对它们进行划分,则每个模块可以具有相同的日期,例如模块A
可能具有日期2020-07-01、2020-07-02
和模块B
可能具有日期2020-07-01、2020-07-05
等。
我需要首先按模块对它们进行分区
并进行一些聚合和联接,然后再按日期对它们进行分区和存储。我正在使用pyspark进行编码
在按模块进行聚合和连接之后,我将把它附加到一个拼花文件中,并将整个拼花文件加载到一个数据帧中,然后按日期对其进行分区。
问题是spark作业由于内存问题而终止。
在模块中
分区时,是否可以直接按日期分区?
所以分区看起来像这样:
输入格式:s3://path/MODULE=A-->s3://path/DATE=2020-07-01
其中两个模块A
和B
都存在于分区DATE=2020-07-01
这是我的原始代码,由于在群集中的时间过长和内存不足而失败:
inpath="s3://path/file/"
outpath="s3://path/file_tmp.parquet"
fs = s3fs.S3FileSystem(anon=False)
uvaDirs = fs.ls(inpath)
#Load Data by Module
for uvapath in uvaDirs:
customPath='s3://' + uvapath + '/'
df1=spark.read.parquet(customPath)
#Perform aggregations and joins
df1.write.mode('append').parquet(outpath)
# Load - partition by date
df2=spark.read.parquet("s3://path/file_tmp.parquet")
df2.write.mode('overwrite').partitionBy("DATE").parquet("s3://path/final.parquet")
它成功地创建了文件\u tmp.parquet
,但在按日期加载和分区时失败。
任何帮助都将不胜感激!
谢谢像delta datasource一样可以做到这一点,delta存储为拼花地板
(spark.read
.format("delta")
.load(path)
.where(partition)
.repartition(numFilesPerPartition)
.write
.option("dataChange", "false")
.format("delta")
.mode("overwrite")
.option("replaceWhere", partition)
.save(path))
// clean old file
val deltaTable = DeltaTable.forPath(spark, tablePath)
deltaTable.vacuum(0)
请参阅:谢谢。这是一种很好的随机划分到特定大小块的方法。但是在我以delta格式保存它之后,我是否需要再次加载整个拼花地板以按日期分割并保存它?