Amazon s3 使用AWS Glue ETL python spark（pyspark）将AWS S3中的多个拼花文件合并为单个拼花文件_Amazon S3_Pyspark_Parquet_Aws Glue

Amazon s3 使用AWS Glue ETL python spark（pyspark）将AWS S3中的多个拼花文件合并为单个拼花文件

amazon-s3 pyspark

Amazon s3 使用AWS Glue ETL python spark（pyspark）将AWS S3中的多个拼花文件合并为单个拼花文件,amazon-s3,pyspark,parquet,aws-glue,Amazon S3,Pyspark,Parquet,Aws Glue,我有AWS胶水ETL作业每15分钟运行一次，每次在S3中生成一个拼花文件我需要创建另一个作业，在每小时结束时运行，以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件有人试过吗？建议和最佳实践提前谢谢嗯。。一个简单的选择是将其转换为spark数据帧 1）将拼花地板读入动态框架（或者更好地读入spark dataframe） 2） sourcedf.toDF（）。。一个简单的选择是将其转换为spark数据帧 1）将拼花地板读入动态框架（

我有AWS胶水ETL作业每15分钟运行一次，每次在S3中生成一个拼花文件

我需要创建另一个作业，在每小时结束时运行，以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件

有人试过吗？建议和最佳实践

提前谢谢

嗯。。一个简单的选择是将其转换为spark数据帧

1）将拼花地板读入动态框架（或者更好地读入spark dataframe）

2） sourcedf.toDF（）。。一个简单的选择是将其转换为spark数据帧

1）将拼花地板读入动态框架（或者更好地读入spark dataframe）

2） sourcedf.toDF（）.repartition（1）

是的，也是这样！我会把答案贴在这里是的，我也这么做了！我会把答案贴在这里