Amazon web services S3数据池中数据的增量更新
我是AWS新手,来自数据仓库ETL背景。我们目前正在使用AWS服务数据湖迁移到云,并尝试使用sqoop作业将数据从外部源RDBMS系统加载到Amazon s3登录层(Bucket),然后使用Informatica BDM加载到Amazon s3中的不同层(Bucket) 每天从外部源系统获取数据的频率。我不确定如何在S3中实现增量加载/SCD类型。在AmazonS3 bucket中创建对象后,是否有可能更改该对象,或者我们是否必须继续在S3 bucket中创建每日负载的副本作为对象Amazon web services S3数据池中数据的增量更新,amazon-web-services,amazon-s3,Amazon Web Services,Amazon S3,我是AWS新手,来自数据仓库ETL背景。我们目前正在使用AWS服务数据湖迁移到云,并尝试使用sqoop作业将数据从外部源RDBMS系统加载到Amazon s3登录层(Bucket),然后使用Informatica BDM加载到Amazon s3中的不同层(Bucket) 每天从外部源系统获取数据的频率。我不确定如何在S3中实现增量加载/SCD类型。在AmazonS3 bucket中创建对象后,是否有可能更改该对象,或者我们是否必须继续在S3 bucket中创建每日负载的副本作为对象 我知道Ama
我知道Amazon为我们提供了数据库选项,但我们被指示将数据加载到Amazon S3。Amazon S3只是一个存储系统。它将存储提供的任何数据 不可能在AmazonS3中“更新”对象。对象可以被覆盖(替换),但不能追加 传统上,数据池中的信息是通过添加附加文件来附加的,例如每天转储的信息。处理数据湖外数据的系统通常处理多个文件。事实上,这是一个更有效的过程,因为数据可以并行处理,而不是试图读取单个大文件 所以,您的系统可以执行新的、完整的转储来替换数据,也可以使用增量数据存储其他文件 另一种常见做法是对数据进行分区,将文件放入不同的目录中,例如每月、每天或每小时的不同目录。这样,当系统处理数据湖中的数据时,它只需要读取已知包含给定时间段数据的目录中的文件。例如,如果查询希望处理给定月份的数据,它只需要读取包含该月份数据的目录,从而加快处理速度。(分区也可以是层次结构的,例如在一个月内的一天中有一小时的目录。)
要回答您的问题“我们必须如何在S3中实现增量加载/SCD类型”,这实际上取决于一旦数据进入数据池,您将如何使用它。最好以有助于最终使用数据的系统的方式存储数据。非常感谢您的回复。正如您提到的,我将尝试实现分区,这对于更快的检索非常有用。