Amazon s3 AWS将RDS中的同步数据(需要将所有模式中的4个表同步)粘贴到S3(apache parque格式)
我们使用的是Postgres RDS实例(db.t3.2xlarge,数据量约为2TB)。我们有一个多租户应用程序,因此对于所有注册我们产品的组织,我们将创建一个单独的模式,以复制我们的数据模型。现在,我们的两个模式(大约5到10个模式)包含两个大表(大约5到7个大表,每个大表包含1000到200万行)。对于UI,我们需要显示一些静态数据和图形,并且要计算静态数据和图形数据,我们需要在大表上执行连接,这会降低整个数据库服务器的速度。有时,我们需要在夜间执行此类查询,这样用户就不会面临任何性能问题。因此,我们计划在S3中创建一个数据湖,以便我们能够将所有分析负载从RDBMS转移到OLAP解决方案 作为第一步,我们需要将数据从RDS传输到S3,并保持两个数据源的同步。考虑到以下要求,您能否建议哪种工具对我们来说是更好的选择:Amazon s3 AWS将RDS中的同步数据(需要将所有模式中的4个表同步)粘贴到S3(apache parque格式),amazon-s3,amazon-rds,aws-glue,data-lake,aws-datasync,Amazon S3,Amazon Rds,Aws Glue,Data Lake,Aws Datasync,我们使用的是Postgres RDS实例(db.t3.2xlarge,数据量约为2TB)。我们有一个多租户应用程序,因此对于所有注册我们产品的组织,我们将创建一个单独的模式,以复制我们的数据模型。现在,我们的两个模式(大约5到10个模式)包含两个大表(大约5到7个大表,每个大表包含1000到200万行)。对于UI,我们需要显示一些静态数据和图形,并且要计算静态数据和图形数据,我们需要在大表上执行连接,这会降低整个数据库服务器的速度。有时,我们需要在夜间执行此类查询,这样用户就不会面临任何性能问题
我最近刚刚了解了AWS Data Lake,也是基于我的研究(希望这能帮助您找到最好的解决方案) AWS Athena可以存储数据,您可能希望根据租户id(客户id)对数据进行分区 AWS Glue具有爬虫程序: 爬虫程序可以定期运行以检测新数据的可用性 以及对现有数据的更改,包括表定义 变化
谢谢回复@PaulD。首先真的很抱歉我忘了更新这里。我们编写了AWS Glue作业,将数据从RDS传输到S3数据湖。我们在白天放了一块隔板。因此,当我们需要更新最近3天的数据时,我们只需覆盖当天的分区。一旦数据进入S3,我们将使用Athena进行查询。它将提供异步和同步查询。再次感谢:)