Scala AWS Glue Spark作业-使用CatalogSource时如何对S3输入文件进行分组？_Scala_Amazon Web Services_Apache Spark_Amazon S3_Aws Glue

Scala AWS Glue Spark作业-使用CatalogSource时如何对S3输入文件进行分组？

scala amazon-web-services apache-spark amazon-s3

Scala AWS Glue Spark作业-使用CatalogSource时如何对S3输入文件进行分组？,scala,amazon-web-services,apache-spark,amazon-s3,aws-glue,Scala,Amazon Web Services,Apache Spark,Amazon S3,Aws Glue,AWS Glue Spark API支持将多个较小的输入文件分组在一起（）减少了任务和分区但是，当通过getCatalogSource使用datacatalog源，而表又由存储在S3上的文件支持时，我们无法将上述分组参数传递给S3源一些背景信息：我们的ETL作业读取许多小文件，处理包含的记录并将它们写回S3，同时保留原始文件夹结构。这些输出记录应该比源记录更大，数量更少我们假设，如上所述，在分组读取文件时可以实现这一点。实现这一点的另一种方法基本上是将分区重新分配到（1），但这也是非常

AWS Glue Spark API支持将多个较小的输入文件分组在一起（）减少了任务和分区

但是，当通过

getCatalogSource

使用datacatalog源，而表又由存储在S3上的文件支持时，我们无法将上述分组参数传递给S3源

一些背景信息： 我们的ETL作业读取许多小文件，处理包含的记录并将它们写回S3，同时保留原始文件夹结构。这些输出记录应该比源记录更大，数量更少

我们假设，如上所述，在分组读取文件时可以实现这一点。实现这一点的另一种方法基本上是将分区重新分配到（1），但这也是非常低效的

我们错过什么了吗？有人知道如何有效地实现这一点吗？理想情况下，我们可以指定大约的输出文件大小（设置“groupSize”时应该有效：“10000”，以防我们正确理解规范）。

根据AWS支持，所有属性都可以通过AWS控制台直接在粘合表级别设置

a。Key=groupFiles，value=inPartitio
BKey=groupSize，value=1048576
CKey=recurse，value=True