Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 自动归档aws红移表的最佳方法_Amazon Web Services_Amazon S3_Amazon Redshift_Amazon Data Pipeline_Data Pipeline - Fatal编程技术网

Amazon web services 自动归档aws红移表的最佳方法

Amazon web services 自动归档aws红移表的最佳方法,amazon-web-services,amazon-s3,amazon-redshift,amazon-data-pipeline,data-pipeline,Amazon Web Services,Amazon S3,Amazon Redshift,Amazon Data Pipeline,Data Pipeline,我有一个红移的大表,我需要自动化归档每月数据的过程 目前的方法如下(手动): 将红移查询结果卸载到s3 创建新的备份表 将文件从s3复制到红移表 从原始表中删除数据 我需要将此方法自动化, 使用aws数据管道是一种好方法吗? 请建议其他有效的方法,请举例说明 谢谢你的帮助 我建议的方法是在一个小实例中设置气流以运行调度。或者,如果这是太多的工作,设置一个crontab 使用redshift unload命令,将要存档的数据复制到s3,使用子文件夹 每个存档(例如,每月-使用年和月作为文件夹 (姓

我有一个红移的大表,我需要自动化归档每月数据的过程

目前的方法如下(手动):

  • 将红移查询结果卸载到s3
  • 创建新的备份表
  • 将文件从s3复制到红移表
  • 从原始表中删除数据
  • 我需要将此方法自动化,
    使用aws数据管道是一种好方法吗?
    请建议其他有效的方法,请举例说明


    谢谢你的帮助

    我建议的方法是在一个小实例中设置气流以运行调度。或者,如果这是太多的工作,设置一个crontab

  • 使用redshift unload命令,将要存档的数据复制到s3,使用子文件夹 每个存档(例如,每月-使用年和月作为文件夹 (姓名)
  • 从红移表中删除数据
  • 为该数据设置红移光谱外部表定义 在s3中,如果需要,可以将其设置为包含所有子文件夹 希望如此
  • 我建议使用gzip格式,并将每个文件的大小限制在20-100mb左右


    这样一来,数据就在红移之外,但可以在需要时从红移中访问。

    我建议的方法是在一个小实例中设置气流以运行调度。或者,如果这是太多的工作,设置一个crontab

  • 使用redshift unload命令,将要存档的数据复制到s3,使用子文件夹 每个存档(例如,每月-使用年和月作为文件夹 (姓名)
  • 从红移表中删除数据
  • 为该数据设置红移光谱外部表定义 在s3中,如果需要,可以将其设置为包含所有子文件夹 希望如此
  • 我建议使用gzip格式,并将每个文件的大小限制在20-100mb左右


    这样一来,数据就在红移之外,但只要您需要,就可以从红移中访问。

    我不知道亚马逊是否认为这是一种“常见”的情况,足以建议实践,但这里有几个选项(注意:普遍的共识似乎是,数据管道适合于简单的数据加载,但它不是一种归档方法。)

  • 每月创建一个快照,然后从该表中删除数据。您可以使用快照API操作或控制台调度,这些操作或调度可以自动执行,并且您的快照将具有日期戳

  • 将数据复制到S3中的一个外部表中,然后从红移表中删除。我认为您可以使用Spectrum

  • 使用第三方,如N2WS、Panopoly

  • 使用AWS胶水(或者可能是数据管道,我没有用过)拉出表结构/数据,然后截断原始表

  • 使用外部ETL产品来完成与胶水相同的工作。有些产品是免费的,或者您的公司可能已经使用了


  • 我没有遇到任何关于这种类型的数据拷贝的最佳实践。

    我不知道这是否是亚马逊认为“足够普遍”的情况,可以建议实践,但这里有几个选项(注意:流行的共识似乎是,数据管道适合于简单的数据加载,但它不是一种归档方法。)

  • 每月创建一个快照,然后从该表中删除数据。您可以使用快照API操作或控制台调度,这些操作或调度可以自动执行,并且您的快照将具有日期戳

  • 将数据复制到S3中的一个外部表中,然后从红移表中删除。我认为您可以使用Spectrum

  • 使用第三方,如N2WS、Panopoly

  • 使用AWS胶水(或者可能是数据管道,我没有用过)拉出表结构/数据,然后截断原始表

  • 使用外部ETL产品来完成与胶水相同的工作。有些产品是免费的,或者您的公司可能已经使用了


  • 我没有遇到任何关于这种类型的数据拷贝的最佳实践。

    这是常见的实践吗?我在寻找aws保护伞下是否有任何记录良好的子系统可以做到这一点?为什么aws数据管道不适用于此?“这是常见的实践吗”-不-但并不意味着它不好:)这听起来很好,但我更热衷于了解常见做法。这是常见做法吗?我在看,在aws的保护伞下,是否有任何记录良好的子系统可以做到这一点?为什么aws数据管道不适用于此?“这是常见做法吗”-不-但并不意味着它不好:)听起来肯定不错,我们会尝试一下,但更热衷于了解常见做法。您可以使用Specify中的功能轻松完成#2。我还将很快更新库以支持按日期划分,从而使频谱查询更快。谢谢你的回答。我将对此做更多的研究。你可以使用Specify中的功能轻松完成#2。我还将很快更新库以支持按日期划分,从而使频谱查询更快。谢谢你的回答,我将对此做更多的研究