Google cloud dataflow 比较要删除的两个PCollection

Google cloud dataflow 比较要删除的两个PCollection,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,CloudSQL表中每天都有可用的最新数据,因此在将数据写入另一个CloudSQL表时,我需要比较现有数据并执行以下操作:删除删除的数据、更新现有数据和插入新数据 您能否建议使用数据流管道(最好是Java)实现此场景的最佳方法 我发现,使用CloudSQL中的upsert函数,我们可以在jdbc.JdbcIO的帮助下插入/更新记录。但我不知道如何识别要删除的集合。您可以阅读旧表和新表,然后做一个DoFn,比较这两个和仅输出更改的元素,然后可以写在任何您喜欢的地方。您可以为您的问题添加一些细节吗?

CloudSQL表中每天都有可用的最新数据,因此在将数据写入另一个CloudSQL表时,我需要比较现有数据并执行以下操作:删除删除的数据、更新现有数据和插入新数据

您能否建议使用数据流管道(最好是Java)实现此场景的最佳方法


我发现,使用CloudSQL中的upsert函数,我们可以在jdbc.JdbcIO的帮助下插入/更新记录。但我不知道如何识别要删除的集合。

您可以阅读旧表和新表,然后做一个DoFn,比较这两个和仅输出更改的元素,然后可以写在任何您喜欢的地方。

您可以为您的问题添加一些细节吗?从表A到表B,您到底在做什么操作?假设员工信息来自源数据库表。每天最新的员工信息都会出现在表格中,如电子邮件、地址等。在将最新的员工信息写入表格(插入或更新)之前,需要比较现有数据。如果员工记录不在最新的集合中,则假定员工已终止,并且在写入时需要从现有数据库表中删除该数据。感谢您的帮助。这个主意对我有好处。第一步使用“upsert”函数插入/更新记录,然后使用Leftouter连接两个pcollection(最新与旧),在ParDo中获得删除值记录。最后删除了它。