Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 S3中的多个文件是在运行使用RDS MySQL连接的ETL作业后创建的_Amazon S3_Etl_Aws Glue - Fatal编程技术网

Amazon s3 S3中的多个文件是在运行使用RDS MySQL连接的ETL作业后创建的

Amazon s3 S3中的多个文件是在运行使用RDS MySQL连接的ETL作业后创建的,amazon-s3,etl,aws-glue,Amazon S3,Etl,Aws Glue,我是AWS glue的新手,我试着看看是否可以在S3中创建我们的数据湖。为此,我创建了一个ETL作业,在RDS中的小MySQL表上运行。作业完成后,在S3中创建了多个CSV文件,其中大多数是空的 我想了解: 为什么在多个文件中对数据进行分区 我可以在多个表上运行作业吗?在AWS控制台中,它只允许选择一个表作为源数据存储。这是否意味着我需要为每个表创建一个作业 这是由于数据密钥的分布造成的。据我所知,您只能自己手动平衡密钥的负载 可能重复: 你好,Kishore谢谢你回答这个问题。你能举例说明第1

我是AWS glue的新手,我试着看看是否可以在S3中创建我们的数据湖。为此,我创建了一个ETL作业,在RDS中的小MySQL表上运行。作业完成后,在S3中创建了多个CSV文件,其中大多数是空的

我想了解:

  • 为什么在多个文件中对数据进行分区
  • 我可以在多个表上运行作业吗?在AWS控制台中,它只允许选择一个表作为源数据存储。这是否意味着我需要为每个表创建一个作业
  • 这是由于数据密钥的分布造成的。据我所知,您只能自己手动平衡密钥的负载

  • 可能重复:


  • 你好,Kishore谢谢你回答这个问题。你能举例说明第1点吗?嗨,阿迪蒂亚,这是由于在你的基本工作中工作的工人/减速机的数量。每个人都会抛出一个单独的文件。如果要减少输出文件的数量,请尝试使用coalesce(n)-函数,n是所需的输出文件数量。