Azure data factory 数据工厂复制活动Blob->ADL

Azure data factory 数据工厂复制活动Blob->ADL,azure-data-factory,Azure Data Factory,我有在Azure上的Blob存储中积累的文件,这些文件每小时都会通过data factory移动到ADL。。。每小时大约有1000个文件,每个文件有10到60kb 以下各项的最佳组合是什么: "parallelCopies": ? "cloudDataMovementUnits": ? 而且 "concurrency": ? 使用 目前,我将所有这些设置为10,每小时一片大约需要5分钟,这似乎很慢 ADL或Blob是否会受到限制,我如何判断呢?在优化复制活动时,不会有一个适合所有情况的解决方

我有在Azure上的Blob存储中积累的文件,这些文件每小时都会通过data factory移动到ADL。。。每小时大约有1000个文件,每个文件有10到60kb

以下各项的最佳组合是什么:

"parallelCopies": ?
"cloudDataMovementUnits": ?
而且

"concurrency": ?
使用

目前,我将所有这些设置为10,每小时一片大约需要5分钟,这似乎很慢


ADL或Blob是否会受到限制,我如何判断呢?

在优化复制活动时,不会有一个适合所有情况的解决方案。然而,很少有东西你可以结帐并找到一个平衡点。这在很大程度上取决于定价层/要复制的数据类型/源和接收器类型

我很肯定你会看到这篇文章

这是一份参考性能表,根据您的源项目和目标项目的定价级别,这些值绝对不同

平行副本: 这是在文件级别发生的,因此如果源文件很大,因为它会将文章中的数据分块,这是非常有益的 在1到32之间的基于文件的存储之间复制数据。取决于文件的大小和用于在两个云数据存储之间复制数据的云数据移动单元DMU的数量,或者取决于自托管集成运行时计算机的物理配置。 默认值为4。 拷贝的行为很重要。如果设置为mergeFile,则不使用并行复制。 并发性: 这就是您可以并行运行同一活动的实例数。 其他考虑:

压缩: 编解码器 数量 底线是,您可以选择压缩,更快的压缩将增加网络流量,较慢的压缩将增加所消耗的时间

地区: 数据工厂、源和目标的位置或区域可能会影响性能,特别是操作成本。根据您的业务需求,将它们放在同一地区可能并不总是可行的,但您肯定可以探索一些东西

特定于斑点
本文为您提供了大量提高性能的指标,但是在使用data factory时,我认为您在这一级别上做不了什么。您可以在复制过程中使用应用程序监控来检查吞吐量。

感谢您的想法frictionlesspull-我已经阅读了其中的大部分内容,但在这里,它在一个地方很好且简洁,因此我将再次阅读它。。。我想我已经让它在正常的4分钟内尽可能好地工作了,只是将并行拷贝设置为10。。。所以我对此感到高兴;