Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/arrays/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 使用AWS Glue ETL python spark(pyspark)将AWS S3中的多个拼花文件合并为单个拼花文件_Amazon S3_Pyspark_Parquet_Aws Glue - Fatal编程技术网

Amazon s3 使用AWS Glue ETL python spark(pyspark)将AWS S3中的多个拼花文件合并为单个拼花文件

Amazon s3 使用AWS Glue ETL python spark(pyspark)将AWS S3中的多个拼花文件合并为单个拼花文件,amazon-s3,pyspark,parquet,aws-glue,Amazon S3,Pyspark,Parquet,Aws Glue,我有AWS胶水ETL作业每15分钟运行一次,每次在S3中生成一个拼花文件 我需要创建另一个作业,在每小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件 有人试过吗?建议和最佳实践 提前谢谢 嗯。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(或者更好地读入spark dataframe) 2) sourcedf.toDF()。。一个简单的选择是将其转换为spark数据帧 1) 将拼花地板读入动态框架(

我有AWS胶水ETL作业每15分钟运行一次,每次在S3中生成一个拼花文件

我需要创建另一个作业,在每小时结束时运行,以使用AWS Glue ETL pyspark代码将S3中的所有4个拼花地板文件合并为1个拼花地板文件

有人试过吗?建议和最佳实践


提前谢谢

嗯。。一个简单的选择是将其转换为spark数据帧

1) 将拼花地板读入动态框架(或者更好地读入spark dataframe)
2) sourcedf.toDF()。。一个简单的选择是将其转换为spark数据帧

1) 将拼花地板读入动态框架(或者更好地读入spark dataframe)
2) sourcedf.toDF().repartition(1)

是的,也是这样!我会把答案贴在这里是的,我也这么做了!我会把答案贴在这里