Azure data factory Azure Data Factory在处理单个文件时数据流性能较差_Azure Data Factory_Azure Data Factory 2

Azure data factory Azure Data Factory在处理单个文件时数据流性能较差

azure-data-factory

Azure data factory Azure Data Factory在处理单个文件时数据流性能较差,azure-data-factory,azure-data-factory-2,Azure Data Factory,Azure Data Factory 2,我有一个Azure数据流，它有一个非常简单的数据流，所花的时间比我预期的要长。该流从Azure Blob存储中获取JSON文件，添加一些新列，然后将其存储在Cosmos DB中（参见下图） JSON文件非常小，大小从1-15kb不等，我目前在blob容器中有大约200k个文件当我试图在管道中独自执行此数据流时，我让它运行了8个多小时，然后取消了该活动。然后，我将数据迁移到一个高级存储帐户，并重新运行该活动，认为SA可能是瓶颈。它已经运行了将近2个小时，我还没有看到任何插入到Cosmos数据库

我有一个Azure数据流，它有一个非常简单的数据流，所花的时间比我预期的要长。该流从Azure Blob存储中获取JSON文件，添加一些新列，然后将其存储在Cosmos DB中（参见下图）

JSON文件非常小，大小从1-15kb不等，我目前在blob容器中有大约200k个文件

当我试图在管道中独自执行此数据流时，我让它运行了8个多小时，然后取消了该活动。然后，我将数据迁移到一个高级存储帐户，并重新运行该活动，认为SA可能是瓶颈。它已经运行了将近2个小时，我还没有看到任何插入到Cosmos数据库中的内容。监视器屏幕显示以下内容：

是否有某种配置可能导致此任务花费如此长的时间

我尝试从容器中删除除10个文件以外的所有文件，整个过程需要7分钟才能完成。这正常吗？我是否应该预计整个过程需要14万分钟

每次管道运行时是否重新创建集成运行时？如果是，启动时间是否会占整个过程的大部分？此外，还存在诸如计算类型、集成内核运行时的内核数等选项，以提高性能以考虑更好的性能。我的IR有一个10分钟的TTL，所以我不相信它是在任务之间被重新创建或重新启动的。我相信这是事实，我有大量的小文件，这是一个问题。如果我将所有文件合并成一个大文件，它的处理速度会显著加快。