Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 写拼花地板文件时可以重叠分区吗_Apache Spark_Amazon S3_Pyspark_Parquet_Hadoop Partitioning - Fatal编程技术网

Apache spark 写拼花地板文件时可以重叠分区吗

Apache spark 写拼花地板文件时可以重叠分区吗,apache-spark,amazon-s3,pyspark,parquet,hadoop-partitioning,Apache Spark,Amazon S3,Pyspark,Parquet,Hadoop Partitioning,我有一个大约2TB大小的非常大的数据帧。 我可以按两列对它们进行分区:MODULE和DATE 如果我按模块对它们进行划分,则每个模块可以具有相同的日期,例如模块A可能具有日期2020-07-01、2020-07-02和模块B可能具有日期2020-07-01、2020-07-05等。 我需要首先按模块对它们进行分区并进行一些聚合和联接,然后再按日期对它们进行分区和存储。我正在使用pyspark进行编码 在按模块进行聚合和连接之后,我将把它附加到一个拼花文件中,并将整个拼花文件加载到一个数据帧中,然

我有一个大约2TB大小的非常大的数据帧。 我可以按两列对它们进行分区:
MODULE
DATE
如果我按
模块
对它们进行划分,则每个模块可以具有相同的日期,例如
模块A
可能具有日期
2020-07-01、2020-07-02
模块B
可能具有日期
2020-07-01、2020-07-05
等。 我需要首先按
模块对它们进行分区
并进行一些聚合和联接,然后再按
日期对它们进行分区和存储。我正在使用pyspark进行编码

在按模块进行聚合和连接之后,我将把它附加到一个拼花文件中,并将整个拼花文件加载到一个数据帧中,然后按日期对其进行分区。 问题是spark作业由于内存问题而终止。 在
模块中
分区时,是否可以直接按日期分区? 所以分区看起来像这样: 输入格式:
s3://path/MODULE=A-->s3://path/DATE=2020-07-01
其中两个模块
A
B
都存在于分区
DATE=2020-07-01

这是我的原始代码,由于在群集中的时间过长和内存不足而失败:

inpath="s3://path/file/"
outpath="s3://path/file_tmp.parquet"
fs = s3fs.S3FileSystem(anon=False)
uvaDirs = fs.ls(inpath)

#Load Data by Module
for uvapath in uvaDirs:
    customPath='s3://' + uvapath + '/'
    df1=spark.read.parquet(customPath)
    #Perform aggregations and joins
    df1.write.mode('append').parquet(outpath)
    
# Load - partition by date
df2=spark.read.parquet("s3://path/file_tmp.parquet")
df2.write.mode('overwrite').partitionBy("DATE").parquet("s3://path/final.parquet")
它成功地创建了
文件\u tmp.parquet
,但在按日期加载和分区时失败。 任何帮助都将不胜感激!
谢谢

像delta datasource一样可以做到这一点,delta存储为拼花地板

(spark.read
 .format("delta")
 .load(path)
 .where(partition)
 .repartition(numFilesPerPartition)
 .write
 .option("dataChange", "false")
 .format("delta")
 .mode("overwrite")
 .option("replaceWhere", partition)
 .save(path))

// clean old file
val deltaTable = DeltaTable.forPath(spark, tablePath)
deltaTable.vacuum(0)

请参阅:

谢谢。这是一种很好的随机划分到特定大小块的方法。但是在我以delta格式保存它之后,我是否需要再次加载整个拼花地板以按日期分割并保存它?