Azure data factory Azure数据工厂-增量加载到Azure数据湖

Azure data factory Azure数据工厂-增量加载到Azure数据湖,azure-data-factory,azure-databricks,delta-lake,azure-data-lake-gen2,Azure Data Factory,Azure Databricks,Delta Lake,Azure Data Lake Gen2,我想要一个源系统的增量加载模式,其中没有审计字段,该字段说明记录最后一次修改的时间。示例:持续修改日期(日期时间) 但是这些表是用主键和唯一键定义的,当属性发生任何更改时,应用程序会使用这些主键和唯一键来更新记录 现在的问题是,我如何每天确定增量并使用Azure Data Factory/DataRicks将其加载到Azure Data Lake中 我是否应该从当前日期和当前日期1中提取全套数据,并使用散列值确定增量 或者有更好的方法吗?由于此数据库的大小不太大,最终创建了管道,将完整的数据集加

我想要一个源系统的增量加载模式,其中没有审计字段,该字段说明记录最后一次修改的时间。示例:持续修改日期(日期时间)

但是这些表是用主键和唯一键定义的,当属性发生任何更改时,应用程序会使用这些主键和唯一键来更新记录

现在的问题是,我如何每天确定增量并使用Azure Data Factory/DataRicks将其加载到Azure Data Lake中

我是否应该从当前日期和当前日期1中提取全套数据,并使用散列值确定增量


或者有更好的方法吗?

由于此数据库的大小不太大,最终创建了管道,将完整的数据集加载到sql暂存中,然后回写到Data Lake中初始加载数据集的相关位置,然后将sql暂存升级到以前的模式


对于下一个增量,它将完整的数据集读取到sql暂存中,然后与以前的数据集进行比较,获取更改的记录并将数据写入到相关的增量位置。然后删除现有的前一天数据集,并将临时数据集升级到前一天,以便为下一次增量操作做好准备。

在源系统上启用更改数据捕获(CDC)如何?一些供应商将其内置在SQL Server CDC中,或者使用诸如Attunity Replicate、GoldenGate、自定义触发器等代理。我们无法控制此源系统。刚刚获得对其中一个架构的读取权限。