Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 使用红移光谱对AWS Glue中用于外部表查询的拼花地板文件进行版本控制_Amazon Web Services_Amazon S3_Parquet_Aws Glue_Amazon Redshift Spectrum - Fatal编程技术网

Amazon web services 使用红移光谱对AWS Glue中用于外部表查询的拼花地板文件进行版本控制

Amazon web services 使用红移光谱对AWS Glue中用于外部表查询的拼花地板文件进行版本控制,amazon-web-services,amazon-s3,parquet,aws-glue,amazon-redshift-spectrum,Amazon Web Services,Amazon S3,Parquet,Aws Glue,Amazon Redshift Spectrum,我正在开发一个ETL管道,使用AWS Glue批处理作业将JSON文件转换为拼花格式(存储成本),然后使用RedShift外部表查询S3 bucket中的拼花文件 我的障碍是如何处理拼花文件的多个版本控制,以便外部表查询拼花文件的最新版本或强制AWS Glue覆盖拼花文件并始终保持最新版本 --------------------------------------------------------------------------------------------------------

我正在开发一个ETL管道,使用AWS Glue批处理作业将JSON文件转换为拼花格式(存储成本),然后使用RedShift外部表查询S3 bucket中的拼花文件

我的障碍是如何处理拼花文件的多个版本控制,以便外部表查询拼花文件的最新版本或强制AWS Glue覆盖拼花文件并始终保持最新版本

-------------------------------------------------------------------------------------------------------------------- | Day | JSON (S3) | JSON Ver |Parquet (S3) | External Table Query Data | -------------------------------------------------------------------------------------------------------------------- | 1 | temp.json | 1.0 |part-00000-9n83b353-c000.snappy.parquet| Count 1, includes Parquet i.e. 1.0 | -------------------------------------------------------------------------------------------------------------------- | 2 | temp.json | 2.0 |part-00000-7s34s653-c000.snappy.parquet| Count 2, includes both version, Parquet 1.0 & 2.0| -------------------------------------------------------------------------------------------------------------------- -------------------------------------------------------------------------------------------------------------------- |Day | JSON(S3)| JSON Ver |拼花地板(S3)|外部表查询数据| -------------------------------------------------------------------------------------------------------------------- |1 | temp.json | 1.0 |第-00000部分-9n83b353-c000.snappy.镶木地板|计数1,包括镶木地板,即1.0| -------------------------------------------------------------------------------------------------------------------- |2 | temp.json | 2.0 | part-00000-7s34s653-c000.snappy.parquet | Count 2,包括parquet 1.0和2.0两个版本| -------------------------------------------------------------------------------------------------------------------- 作为一项服务,S3 AWSGlue Redshift Spectrum符合我的实现场景,但希望就如何处理版本控制问题提出建议