Amazon s3 AWS将RDS中的同步数据（需要将所有模式中的4个表同步）粘贴到S3（apache parque格式）_Amazon S3_Amazon Rds_Aws Glue_Data Lake_Aws Datasync

Amazon s3 AWS将RDS中的同步数据（需要将所有模式中的4个表同步）粘贴到S3（apache parque格式）

amazon-s3

Amazon s3 AWS将RDS中的同步数据（需要将所有模式中的4个表同步）粘贴到S3（apache parque格式）,amazon-s3,amazon-rds,aws-glue,data-lake,aws-datasync,Amazon S3,Amazon Rds,Aws Glue,Data Lake,Aws Datasync,我们使用的是Postgres RDS实例（db.t3.2xlarge，数据量约为2TB）。我们有一个多租户应用程序，因此对于所有注册我们产品的组织，我们将创建一个单独的模式，以复制我们的数据模型。现在，我们的两个模式（大约5到10个模式）包含两个大表（大约5到7个大表，每个大表包含1000到200万行）。对于UI，我们需要显示一些静态数据和图形，并且要计算静态数据和图形数据，我们需要在大表上执行连接，这会降低整个数据库服务器的速度。有时，我们需要在夜间执行此类查询，这样用户就不会面临任何性能问题

我们使用的是Postgres RDS实例（db.t3.2xlarge，数据量约为2TB）。我们有一个多租户应用程序，因此对于所有注册我们产品的组织，我们将创建一个单独的模式，以复制我们的数据模型。现在，我们的两个模式（大约5到10个模式）包含两个大表（大约5到7个大表，每个大表包含1000到200万行）。对于UI，我们需要显示一些静态数据和图形，并且要计算静态数据和图形数据，我们需要在大表上执行连接，这会降低整个数据库服务器的速度。有时，我们需要在夜间执行此类查询，这样用户就不会面临任何性能问题。因此，我们计划在S3中创建一个数据湖，以便我们能够将所有分析负载从RDBMS转移到OLAP解决方案

作为第一步，我们需要将数据从RDS传输到S3，并保持两个数据源的同步。考虑到以下要求，您能否建议哪种工具对我们来说是更好的选择：

我们需要每小时更新最近3天的数据。我们希望不断更新最新数据，因为在3天的时间窗口内，数据可能会发生变化。3天后，我们可以考虑“静止”的数据，并且可以在数据湖中休息，而没有任何未来的修改。

我们目前正在使用一个多租户系统，我们有大约350个模式，但随着越来越多的组织注册我们的产品，这种模式将会增加

我们计划进行ETL，所以在转换中，我们计划联接所有表，创建一个非规范化表，并将数据以ApacheParque格式存储在S3中。因此，我们可以使用红移光谱、EMR或其他工具对该表执行分析查询

我最近刚刚了解了AWS Data Lake，也是基于我的研究（希望这能帮助您找到最好的解决方案）

AWS Athena可以存储数据，您可能希望根据租户id（客户id）对数据进行分区

AWS Glue具有爬虫程序：

爬虫程序可以定期运行以检测新数据的可用性以及对现有数据的更改，包括表定义变化

谢谢回复@PaulD。首先真的很抱歉我忘了更新这里。我们编写了AWS Glue作业，将数据从RDS传输到S3数据湖。我们在白天放了一块隔板。因此，当我们需要更新最近3天的数据时，我们只需覆盖当天的分区。一旦数据进入S3，我们将使用Athena进行查询。它将提供异步和同步查询。再次感谢：）