Amazon web services 持续将Amazon RDS同步到Amazon S3

Amazon web services 持续将Amazon RDS同步到Amazon S3,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,我们正在使用一个AWS粘合作业将表从AmazonRDS MySQL复制到AmazonS3 我们运行过一次,效果很好。我们如何确保它每天只写入RDS表中的更改(更改或添加的行) 您可以尝试使用AWS胶水作业书签,如果它始终是一个新数据 AWS Glue PypSpark动态帧方法包括一个名为transformation_ctx的可选参数,该transformation_ctx参数用于标识给定操作员作业书签中的状态信息 例如: datasource0 = glueContext.create_dyn

我们正在使用一个AWS粘合作业将表从AmazonRDS MySQL复制到AmazonS3


我们运行过一次,效果很好。我们如何确保它每天只写入RDS表中的更改(更改或添加的行)

您可以尝试使用AWS胶水作业书签,如果它始终是一个新数据

AWS Glue PypSpark动态帧方法包括一个名为
transformation_ctx
的可选参数,该transformation_ctx参数用于标识给定操作员作业书签中的状态信息

例如:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "relatedqueries_csv", transformation_ctx = "datasource0")

或者,您可以在spark sql中使用获取整个数据,并与现有数据进行左外部连接。Left outer提供新添加的记录和修改的记录。

如果使用书签,它将只获取新记录,如果表的主键不按顺序排列,则使用JDBC的书签将没有任何用处。此外,作业书签搜索新行,但不搜索更新的行


但您始终可以将查询下推到db引擎,以计算新记录/修改的记录。例如,请参阅

我还需要更改的数据。也许我应该删除所有s3数据,每天重新加载整个表?我该怎么做?