Amazon web services 在AWSS3中,从更改日志(数据湖)重新创建关系数据库的最佳方法是什么?

Amazon web services 在AWSS3中,从更改日志(数据湖)重新创建关系数据库的最佳方法是什么?,amazon-web-services,rdbms,data-lake,Amazon Web Services,Rdbms,Data Lake,我已经将非关系无模式数据表中的变更日志(包含数据信息的数据)存储到S3中。现在我需要一些结构化关系数据库来查询所有数据。所以我需要从S3创建一个数据库。现在我不知道该怎么做,是使用另一个S3还是使用一些传统的数据库 您可以在数据上创建glue目录,并使用无服务器Athena进行查询。 这样,您就不必使用任何rdbms,并且可以在任何需要的时间查询数据,将文件保存在s3中 这也将具有成本效益。 或者,如果需要,您可以随时在AWS中启动RDS。因此,将文件保存在s3中是一个不错的选择。问题是我需要将

我已经将非关系无模式数据表中的变更日志(包含数据信息的数据)存储到S3中。现在我需要一些结构化关系数据库来查询所有数据。所以我需要从S3创建一个数据库。现在我不知道该怎么做,是使用另一个S3还是使用一些传统的数据库

您可以在数据上创建glue目录,并使用无服务器Athena进行查询。 这样,您就不必使用任何rdbms,并且可以在任何需要的时间查询数据,将文件保存在s3中

这也将具有成本效益。
或者,如果需要,您可以随时在AWS中启动RDS。因此,将文件保存在s3中是一个不错的选择。

问题是我需要将数据从无模式转换为关系模式。如果我使用胶水与雅典娜然后我需要一些克朗与lambda谁会这样做,并需要创建另一个S3。但是存储在另一个S3中是否是一个好的选择,因为我需要的只是一个平台,在这个平台上我可以运行sql查询并快速获得结果。您只需添加一个S3事件,并在文件到达S3时使用lambda处理它。这将是非常值得的,因为您只需为您查询的内容付费,并且您可以在稍后阶段对您的数据执行任何分析。S3存储成本非常便宜,通过lambda处理后,只需将原始文件移到glacier即可。感谢您的回复。我目前正在使用此设置。我使用雅典娜在S3中进行查询。问题是,当我查询更大的数据时,雅典娜工作得很好,或者当我们使用一些第三方库进行分析时,它也工作得很好。但是,当我们必须多次运行samller查询时,这不是一个好的选择。那么雅典娜所花的时间就是想象。在这种情况下,你总是可以利用s3选择。您可以编写自定义脚本,并使用s3 select运行您的查询,这非常快,相信我。非常感谢Shubham。我从未使用s3 select进行生产。但我一定会努力的。我也在考虑AWS RDS postgre/sql。与Athena(批量查询)+s3 select(单个查询)相比,使用这些查询的优缺点是什么?