Amazon s3 S3中的多个文件是在运行使用RDS MySQL连接的ETL作业后创建的
我是AWS glue的新手,我试着看看是否可以在S3中创建我们的数据湖。为此,我创建了一个ETL作业,在RDS中的小MySQL表上运行。作业完成后,在S3中创建了多个CSV文件,其中大多数是空的 我想了解:Amazon s3 S3中的多个文件是在运行使用RDS MySQL连接的ETL作业后创建的,amazon-s3,etl,aws-glue,Amazon S3,Etl,Aws Glue,我是AWS glue的新手,我试着看看是否可以在S3中创建我们的数据湖。为此,我创建了一个ETL作业,在RDS中的小MySQL表上运行。作业完成后,在S3中创建了多个CSV文件,其中大多数是空的 我想了解: 为什么在多个文件中对数据进行分区 我可以在多个表上运行作业吗?在AWS控制台中,它只允许选择一个表作为源数据存储。这是否意味着我需要为每个表创建一个作业 这是由于数据密钥的分布造成的。据我所知,您只能自己手动平衡密钥的负载 可能重复: 你好,Kishore谢谢你回答这个问题。你能举例说明第1
你好,Kishore谢谢你回答这个问题。你能举例说明第1点吗?嗨,阿迪蒂亚,这是由于在你的基本工作中工作的工人/减速机的数量。每个人都会抛出一个单独的文件。如果要减少输出文件的数量,请尝试使用coalesce(n)-函数,n是所需的输出文件数量。