Amazon web services 持续将Amazon RDS同步到Amazon S3_Amazon Web Services_Aws Glue

Amazon web services 持续将Amazon RDS同步到Amazon S3

amazon-web-services

Amazon web services 持续将Amazon RDS同步到Amazon S3,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,我们正在使用一个AWS粘合作业将表从AmazonRDS MySQL复制到AmazonS3 我们运行过一次，效果很好。我们如何确保它每天只写入RDS表中的更改（更改或添加的行）您可以尝试使用AWS胶水作业书签，如果它始终是一个新数据 AWS Glue PypSpark动态帧方法包括一个名为transformation_ctx的可选参数，该transformation_ctx参数用于标识给定操作员作业书签中的状态信息例如： datasource0 = glueContext.create_dyn

我们正在使用一个AWS粘合作业将表从AmazonRDS MySQL复制到AmazonS3

我们运行过一次，效果很好。我们如何确保它每天只写入RDS表中的更改（更改或添加的行）

您可以尝试使用AWS胶水作业书签，如果它始终是一个新数据

AWS Glue PypSpark动态帧方法包括一个名为

transformation_ctx

的可选参数，该transformation_ctx参数用于标识给定操作员作业书签中的状态信息

例如：

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database", table_name = "relatedqueries_csv", transformation_ctx = "datasource0")

或者，您可以在spark sql中使用获取整个数据，并与现有数据进行左外部连接。Left outer提供新添加的记录和修改的记录。

如果使用书签，它将只获取新记录，如果表的主键不按顺序排列，则使用JDBC的书签将没有任何用处。此外，作业书签搜索新行，但不搜索更新的行

但您始终可以将查询下推到db引擎，以计算新记录/修改的记录。例如，请参阅

我还需要更改的数据。也许我应该删除所有s3数据，每天重新加载整个表？我该怎么做？