Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 AWS将RDS中的同步数据(需要将所有模式中的4个表同步)粘贴到S3(apache parque格式)_Amazon S3_Amazon Rds_Aws Glue_Data Lake_Aws Datasync - Fatal编程技术网

Amazon s3 AWS将RDS中的同步数据(需要将所有模式中的4个表同步)粘贴到S3(apache parque格式)

Amazon s3 AWS将RDS中的同步数据(需要将所有模式中的4个表同步)粘贴到S3(apache parque格式),amazon-s3,amazon-rds,aws-glue,data-lake,aws-datasync,Amazon S3,Amazon Rds,Aws Glue,Data Lake,Aws Datasync,我们使用的是Postgres RDS实例(db.t3.2xlarge,数据量约为2TB)。我们有一个多租户应用程序,因此对于所有注册我们产品的组织,我们将创建一个单独的模式,以复制我们的数据模型。现在,我们的两个模式(大约5到10个模式)包含两个大表(大约5到7个大表,每个大表包含1000到200万行)。对于UI,我们需要显示一些静态数据和图形,并且要计算静态数据和图形数据,我们需要在大表上执行连接,这会降低整个数据库服务器的速度。有时,我们需要在夜间执行此类查询,这样用户就不会面临任何性能问题

我们使用的是Postgres RDS实例(db.t3.2xlarge,数据量约为2TB)。我们有一个多租户应用程序,因此对于所有注册我们产品的组织,我们将创建一个单独的模式,以复制我们的数据模型。现在,我们的两个模式(大约5到10个模式)包含两个大表(大约5到7个大表,每个大表包含1000到200万行)。对于UI,我们需要显示一些静态数据和图形,并且要计算静态数据和图形数据,我们需要在大表上执行连接,这会降低整个数据库服务器的速度。有时,我们需要在夜间执行此类查询,这样用户就不会面临任何性能问题。因此,我们计划在S3中创建一个数据湖,以便我们能够将所有分析负载从RDBMS转移到OLAP解决方案

作为第一步,我们需要将数据从RDS传输到S3,并保持两个数据源的同步。考虑到以下要求,您能否建议哪种工具对我们来说是更好的选择:

  • 我们需要每小时更新最近3天的数据。我们希望不断更新最新数据,因为在3天的时间窗口内,数据可能会发生变化。3天后,我们可以考虑“静止”的数据,并且可以在数据湖中休息,而没有任何未来的修改。
  • 我们目前正在使用一个多租户系统,我们有大约350个模式,但随着越来越多的组织注册我们的产品,这种模式将会增加
  • 我们计划进行ETL,所以在转换中,我们计划联接所有表,创建一个非规范化表,并将数据以ApacheParque格式存储在S3中。因此,我们可以使用红移光谱、EMR或其他工具对该表执行分析查询

  • 我最近刚刚了解了AWS Data Lake,也是基于我的研究(希望这能帮助您找到最好的解决方案)

    AWS Athena可以存储数据,您可能希望根据租户id(客户id)对数据进行分区

    AWS Glue具有爬虫程序:

    爬虫程序可以定期运行以检测新数据的可用性 以及对现有数据的更改,包括表定义 变化


    谢谢回复@PaulD。首先真的很抱歉我忘了更新这里。我们编写了AWS Glue作业,将数据从RDS传输到S3数据湖。我们在白天放了一块隔板。因此,当我们需要更新最近3天的数据时,我们只需覆盖当天的分区。一旦数据进入S3,我们将使用Athena进行查询。它将提供异步和同步查询。再次感谢:)