Amazon web services AWS Glue从分区表读取数据并写入分区表

Amazon web services AWS Glue从分区表读取数据并写入分区表,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,我的用例很简单。我在s3中有20 TB的原始csv未压缩数据,分区文件夹结构为年(10个分区10年,每个分区有2 TB)。我想将这些数据转换成拼花格式(snappy压缩),并保持类似的分区/文件夹结构。我想要一个雅典娜的10个分区的拼花地板表,我将使用它按分区查询这些数据,稍后可能会删除原始的csv数据。用胶水,看起来我会创造10个我不能使用的拼花地板桌子 用胶水可以吗?Hive/Spark I没有使用EC2,而是寻找简单的解决方案。有什么建议吗?非常感谢您的帮助。假设您在该数据上有胶水目录,您

我的用例很简单。我在s3中有20 TB的原始csv未压缩数据,分区文件夹结构为年(10个分区10年,每个分区有2 TB)。我想将这些数据转换成拼花格式(snappy压缩),并保持类似的分区/文件夹结构。我想要一个雅典娜的10个分区的拼花地板表,我将使用它按分区查询这些数据,稍后可能会删除原始的csv数据。用胶水,看起来我会创造10个我不能使用的拼花地板桌子


用胶水可以吗?Hive/Spark I没有使用EC2,而是寻找简单的解决方案。有什么建议吗?非常感谢您的帮助。

假设您在该数据上有胶水目录,您可以将其作为动态框架加载,然后将其作为拼花地板写回新位置:

dynamic_frame = glue_context.create_dynamic_frame.from_catalog(
    database=glue_database_name,
    table_name=glue_table_name)
data_frame = dynamic_frame.toDF()
data_frame.repartition("year")\
    .write\
    .partitionBy("year")\
    .parquet('s3://target-bucket/prefix/')

假设数据上有胶水目录,可以将其作为动态框架加载,然后将其作为拼花地板写回新位置:

dynamic_frame = glue_context.create_dynamic_frame.from_catalog(
    database=glue_database_name,
    table_name=glue_table_name)
data_frame = dynamic_frame.toDF()
data_frame.repartition("year")\
    .write\
    .partitionBy("year")\
    .parquet('s3://target-bucket/prefix/')