Azure data factory 如何使用Azure DataFactory管道进行回填,然后将其转换为运行计划?

Azure data factory 如何使用Azure DataFactory管道进行回填,然后将其转换为运行计划?,azure-data-factory,Azure Data Factory,我有大量包含日志数据的blob,需要将它们复制到azure sql表中,并且会定期收到更多blob。blob的命名格式为[ORIGINALTARFILENAME].tar.gz.log 如何使用data factory,使其在不超时的情况下执行初始回填,然后将同一管道转换为按常规计划运行,从而不会对blob进行两次处理 它本质上是: 创建一次性流程 VS中的开放进程 修改json以包含某种计划 部署更改 这取决于数据的组织方式。Data Factory最适用于可以轻松划分为基于时间的切片的数据集

我有大量包含日志数据的blob,需要将它们复制到azure sql表中,并且会定期收到更多blob。blob的命名格式为
[ORIGINALTARFILENAME].tar.gz.log

如何使用data factory,使其在不超时的情况下执行初始回填,然后将同一管道转换为按常规计划运行,从而不会对blob进行两次处理

它本质上是:

  • 创建一次性流程
  • VS中的开放进程
  • 修改json以包含某种计划
  • 部署更改

  • 这取决于数据的组织方式。Data Factory最适用于可以轻松划分为基于时间的切片的数据集。如果您的
    ORIGINALTARFILENAME
    包含创建blob的日期和时间,则只需一条管道,您就可以以简单的方式实现所需

    您可以使用官方文档中的此示例作为起点:

    然后只需将您的活动
    startDate
    设置得足够远,就可以拾取所有已经存在的blob。回填将与新的切片并行运行(增加活动
    并发性
    将确保没有任何内容被饿死),并且您不必以任何特殊方式处理它,因为每个blob将只对应于一个切片,因此只需处理一次