Amazon web services aws-rds增量负载

Amazon web services aws-rds增量负载,amazon-web-services,etl,aws-glue,aws-glue-data-catalog,Amazon Web Services,Etl,Aws Glue,Aws Glue Data Catalog,我正在尝试使用AWS胶水将数据从AWS RDS(MySQL)加载到红移。我想以增量方式加载数据。通过使用作业书签,glue只能跟踪新添加的数据,但无法跟踪更新的行。有没有办法只加载更新的数据?可能是通过使用MySQL源表中的字段updated_at实现的?这不可能使用作业书签。来自AWS文件: 作业书签是为关系数据库(JDBC连接)输入源的有限用例实现的。对于此输入源,仅当表的主键按顺序排列时,才支持作业书签。此外,作业书签搜索新行,但不搜索更新的行。这是因为书签查找已经存在的主键。 Gl

我正在尝试使用AWS胶水将数据从AWS RDS(MySQL)加载到红移。我想以增量方式加载数据。通过使用作业书签,glue只能跟踪新添加的数据,但无法跟踪更新的行。有没有办法只加载更新的数据?可能是通过使用MySQL源表中的字段updated_at实现的?

这不可能使用作业书签。来自AWS文件:


作业书签是为关系数据库(JDBC连接)输入源的有限用例实现的。对于此输入源,仅当表的主键按顺序排列时,才支持作业书签。此外,作业书签搜索新行,但不搜索更新的行。这是因为书签查找已经存在的主键。

Glue需要将整个RDS数据加载到动态帧或数据帧中。但是,如果您试图避免的是截断红移表并重新加载所有数据,则可以使用此数据向红移数据库执行upsert


您可以使用该查询通过过滤源JDBC数据库中的数据来查找更新的记录,如下例所示。我将日期作为参数传递,因此在本例中,对于每次运行,我只能从mysql数据库中获取最新的值


请参考答案,例如

哪里是保存上次处理的时间戳的好地方?s3文件?