如何处理增量&;Azure数据工厂中的完全上载

如何处理增量&;Azure数据工厂中的完全上载,azure,azure-data-factory,Azure,Azure Data Factory,我们有一个Azure存储帐户,有2个blob商店。一个完整的和一个有限公司。 在Full中,每当需要完全上传时,我们都会放置完全上传的CSV文件,而在Inc中,我们每天只放置少量的增量CSV文件。 我们首先在暂存中加载所有数据,然后加载到ODS en,最后加载到Edw(企业数据仓库)。 只有当表发生结构更改时,才需要完全上载 基本上,两次上传之间的唯一区别是,full还清除ODS和EDW中的所有数据,但在管道中运行sames存储过程 任何人都有如何在Azure数据工厂中处理这种情况的技巧。 我不

我们有一个Azure存储帐户,有2个blob商店。一个完整的和一个有限公司。 在Full中,每当需要完全上传时,我们都会放置完全上传的CSV文件,而在Inc中,我们每天只放置少量的增量CSV文件。 我们首先在暂存中加载所有数据,然后加载到ODS en,最后加载到Edw(企业数据仓库)。 只有当表发生结构更改时,才需要完全上载

基本上,两次上传之间的唯一区别是,full还清除ODS和EDW中的所有数据,但在管道中运行sames存储过程

任何人都有如何在Azure数据工厂中处理这种情况的技巧。 我不希望数据工厂翻倍,但由于输出数据集的可用性/频率不同,我不能使用与输出数据集相同的暂存逻辑(在数据工厂中)表


因此,任何提示都非常感谢……

首先要明确的是,ADF只是用来调用其他Azure服务的,它本身不做任何工作。所以问题真的是;您可以从ADF调用Azure中的哪些服务来完成这项工作并管理这种情况

要回答这个问题

选项1:我建议您看看Azure Data Lake。我只编写了上面在USQL中描述的过程,其中参数可以从ADF传递到USQL过程,用于不同类型的行为

您创建的代码可以存在于Azure Data Lake Analytics数据库中,类似于TSQL对象。然后也可以开始使用Azure Data Lake存储,而不是普通的Blob

选项2:打破C#并为自己创建一个Azure Data Factory自定义活动,并创建一组类,以完全满足您的需要。再次使用ADF传递的参数,或在方法中包含逻辑以检查“完整”表内容。然而,这将涉及更多的开发工作,并且需要计算的Azure批处理服务