Scala AWS Glue Spark作业-使用CatalogSource时如何对S3输入文件进行分组?

Scala AWS Glue Spark作业-使用CatalogSource时如何对S3输入文件进行分组?,scala,amazon-web-services,apache-spark,amazon-s3,aws-glue,Scala,Amazon Web Services,Apache Spark,Amazon S3,Aws Glue,AWS Glue Spark API支持将多个较小的输入文件分组在一起 ()减少了任务和分区 但是,当通过getCatalogSource使用datacatalog源,而表又由存储在S3上的文件支持时,我们无法将上述分组参数传递给S3源 一些背景信息: 我们的ETL作业读取许多小文件,处理包含的记录并将它们写回S3,同时保留原始文件夹结构。这些输出记录应该比源记录更大,数量更少 我们假设,如上所述,在分组读取文件时可以实现这一点。实现这一点的另一种方法基本上是将分区重新分配到(1),但这也是非常

AWS Glue Spark API支持将多个较小的输入文件分组在一起 ()减少了任务和分区

但是,当通过
getCatalogSource
使用datacatalog源,而表又由存储在S3上的文件支持时,我们无法将上述分组参数传递给S3源

一些背景信息: 我们的ETL作业读取许多小文件,处理包含的记录并将它们写回S3,同时保留原始文件夹结构。这些输出记录应该比源记录更大,数量更少

我们假设,如上所述,在分组读取文件时可以实现这一点。实现这一点的另一种方法基本上是将分区重新分配到(1),但这也是非常低效的


我们错过什么了吗?有人知道如何有效地实现这一点吗?理想情况下,我们可以指定大约的输出文件大小(设置“groupSize”时应该有效:“10000”,以防我们正确理解规范)。

根据AWS支持,所有属性都可以通过AWS控制台直接在粘合表级别设置

a。Key=groupFiles,value=inPartitio
BKey=groupSize,value=1048576
CKey=recurse,value=True