Amazon s3 使用AWS Glue ETL python spark(pyspark)将AWS S3中的多个拼花文件合并为单个拼花文件
我有AWS胶水ETL作业每15分钟运行一次,每次在S3中生成一个拼花文件 我需要创建另一个作业,在每小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件 有人试过吗?建议和最佳实践Amazon s3 使用AWS Glue ETL python spark(pyspark)将AWS S3中的多个拼花文件合并为单个拼花文件,amazon-s3,pyspark,parquet,aws-glue,Amazon S3,Pyspark,Parquet,Aws Glue,我有AWS胶水ETL作业每15分钟运行一次,每次在S3中生成一个拼花文件 我需要创建另一个作业,在每小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件 有人试过吗?建议和最佳实践 提前谢谢 嗯。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(或者更好地读入spark dataframe) 2) sourcedf.toDF()。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(
提前谢谢 嗯。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(或者更好地读入spark dataframe)
2) sourcedf.toDF()。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(或者更好地读入spark dataframe)
2) sourcedf.toDF().repartition(1)是的,也是这样!我会把答案贴在这里是的,我也这么做了!我会把答案贴在这里