Azure data factory Azure Data Factory在处理单个文件时数据流性能较差

Azure data factory Azure Data Factory在处理单个文件时数据流性能较差,azure-data-factory,azure-data-factory-2,Azure Data Factory,Azure Data Factory 2,我有一个Azure数据流,它有一个非常简单的数据流,所花的时间比我预期的要长。该流从Azure Blob存储中获取JSON文件,添加一些新列,然后将其存储在Cosmos DB中(参见下图) JSON文件非常小,大小从1-15kb不等,我目前在blob容器中有大约200k个文件 当我试图在管道中独自执行此数据流时,我让它运行了8个多小时,然后取消了该活动。然后,我将数据迁移到一个高级存储帐户,并重新运行该活动,认为SA可能是瓶颈。它已经运行了将近2个小时,我还没有看到任何插入到Cosmos数据库

我有一个Azure数据流,它有一个非常简单的数据流,所花的时间比我预期的要长。该流从Azure Blob存储中获取JSON文件,添加一些新列,然后将其存储在Cosmos DB中(参见下图)

JSON文件非常小,大小从1-15kb不等,我目前在blob容器中有大约200k个文件

当我试图在管道中独自执行此数据流时,我让它运行了8个多小时,然后取消了该活动。然后,我将数据迁移到一个高级存储帐户,并重新运行该活动,认为SA可能是瓶颈。它已经运行了将近2个小时,我还没有看到任何插入到Cosmos数据库中的内容。监视器屏幕显示以下内容:

是否有某种配置可能导致此任务花费如此长的时间


我尝试从容器中删除除10个文件以外的所有文件,整个过程需要7分钟才能完成。这正常吗?我是否应该预计整个过程需要14万分钟

每次管道运行时是否重新创建集成运行时?如果是,启动时间是否会占整个过程的大部分?此外,还存在诸如计算类型、集成内核运行时的内核数等选项,以提高性能以考虑更好的性能。我的IR有一个10分钟的TTL,所以我不相信它是在任务之间被重新创建或重新启动的。我相信这是事实,我有大量的小文件,这是一个问题。如果我将所有文件合并成一个大文件,它的处理速度会显著加快。