Amazon web services 自动归档aws红移表的最佳方法_Amazon Web Services_Amazon S3_Amazon Redshift_Amazon Data Pipeline_Data Pipeline

Amazon web services 自动归档aws红移表的最佳方法

amazon-web-services amazon-s3 amazon-redshift

Amazon web services 自动归档aws红移表的最佳方法,amazon-web-services,amazon-s3,amazon-redshift,amazon-data-pipeline,data-pipeline,Amazon Web Services,Amazon S3,Amazon Redshift,Amazon Data Pipeline,Data Pipeline,我有一个红移的大表，我需要自动化归档每月数据的过程目前的方法如下（手动）：将红移查询结果卸载到s3 创建新的备份表将文件从s3复制到红移表从原始表中删除数据我需要将此方法自动化，使用aws数据管道是一种好方法吗？请建议其他有效的方法，请举例说明谢谢你的帮助我建议的方法是在一个小实例中设置气流以运行调度。或者，如果这是太多的工作，设置一个crontab 使用redshift unload命令，将要存档的数据复制到s3，使用子文件夹每个存档（例如，每月-使用年和月作为文件夹（姓

我有一个红移的大表，我需要自动化归档每月数据的过程

目前的方法如下（手动）：

将红移查询结果卸载到s3

创建新的备份表

将文件从s3复制到红移表

从原始表中删除数据

我需要将此方法自动化，
使用aws数据管道是一种好方法吗？
请建议其他有效的方法，请举例说明

谢谢你的帮助

我建议的方法是在一个小实例中设置气流以运行调度。或者，如果这是太多的工作，设置一个crontab

使用redshift unload命令，将要存档的数据复制到s3，使用子文件夹每个存档（例如，每月-使用年和月作为文件夹（姓名）

从红移表中删除数据

为该数据设置红移光谱外部表定义在s3中，如果需要，可以将其设置为包含所有子文件夹希望如此

我建议使用gzip格式，并将每个文件的大小限制在20-100mb左右

这样一来，数据就在红移之外，但可以在需要时从红移中访问。

我建议的方法是在一个小实例中设置气流以运行调度。或者，如果这是太多的工作，设置一个crontab

使用redshift unload命令，将要存档的数据复制到s3，使用子文件夹每个存档（例如，每月-使用年和月作为文件夹（姓名）

从红移表中删除数据

为该数据设置红移光谱外部表定义在s3中，如果需要，可以将其设置为包含所有子文件夹希望如此

我建议使用gzip格式，并将每个文件的大小限制在20-100mb左右

这样一来，数据就在红移之外，但只要您需要，就可以从红移中访问。

我不知道亚马逊是否认为这是一种“常见”的情况，足以建议实践，但这里有几个选项（注意：普遍的共识似乎是，数据管道适合于简单的数据加载，但它不是一种归档方法。）

每月创建一个快照，然后从该表中删除数据。您可以使用快照API操作或控制台调度，这些操作或调度可以自动执行，并且您的快照将具有日期戳

将数据复制到S3中的一个外部表中，然后从红移表中删除。我认为您可以使用Spectrum

使用第三方，如N2WS、Panopoly

使用AWS胶水（或者可能是数据管道，我没有用过）拉出表结构/数据，然后截断原始表

使用外部ETL产品来完成与胶水相同的工作。有些产品是免费的，或者您的公司可能已经使用了

我没有遇到任何关于这种类型的数据拷贝的最佳实践。

我不知道这是否是亚马逊认为“足够普遍”的情况，可以建议实践，但这里有几个选项（注意：流行的共识似乎是，数据管道适合于简单的数据加载，但它不是一种归档方法。）