Azure数据工厂和数据流花费太多时间来处理从暂存到数据库的数据

Azure数据工厂和数据流花费太多时间来处理从暂存到数据库的数据,azure,azure-data-factory,azure-data-factory-2,Azure,Azure Data Factory,Azure Data Factory 2,所以我有一个每天运行的数据工厂,它从oracle内部数据库中选择大约8000万条记录的数据,并将其移动到拼花文件中,这大约需要2个小时,我想加快这个过程。。。还包括在数据库中插入和更新数据的数据流过程 拼花锉刀 下一步是从拼花文件调用数据流,将数据向上插入到数据库,但这也会占用太多时间 数据流设置 让我知道数据流的计算类型 内存优化 计算优化 通用 循环更新后 下沉时间 能否打开数据流的监控详细执行计划?单击数据流中的每个阶段,查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多

所以我有一个每天运行的数据工厂,它从oracle内部数据库中选择大约8000万条记录的数据,并将其移动到拼花文件中,这大约需要2个小时,我想加快这个过程。。。还包括在数据库中插入和更新数据的数据流过程

拼花锉刀

下一步是从拼花文件调用数据流,将数据向上插入到数据库,但这也会占用太多时间

数据流设置

让我知道数据流的计算类型

内存优化 计算优化 通用

循环更新后

下沉时间


能否打开数据流的监控详细执行计划?单击数据流中的每个阶段,查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多少时间,读取源代码花费了多少时间,还应该检查接收器上的总写入时间


我有一些如何查看和优化的示例。

您能打开数据流的监控详细执行计划吗?单击数据流中的每个阶段,查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多少时间,读取源代码花费了多少时间,还应该检查接收器上的总写入时间


我有一些如何查看和优化的例子。

好吧,我想45分钟把8500万个文件塞进SQL数据库并不可怕。您可以将任务分解为多个部分,并查看哪些部分需要最长时间才能完成。你有访问数据库的权限吗?我用Databricks做了很多预处理,我发现Spark非常快!!如果您可以在Databricks中预处理并将所有内容推入SQL世界,您可能会有一个最佳的解决方案。

好吧,我猜45分钟将8500万个文件塞进SQL DB并不可怕。您可以将任务分解为多个部分,并查看哪些部分需要最长时间才能完成。你有访问数据库的权限吗?我用Databricks做了很多预处理,我发现Spark非常快!!如果您可以在Databricks中预处理并将所有内容推送到您的SQL世界中,您可能有一个最佳解决方案。

根据文档,您可以尝试在接收器的“优化”选项卡下修改分区设置吗

我在默认分区设置中也遇到了类似的问题,在将分区策略更改为循环并提供了分区数为5的分区后,1M记录本身的数据加载时间接近30分钟以上,因为我的案例加载在不到一分钟的时间内发生


尝试同时使用源分区和接收器分区设置来获得最佳策略。根据文档,这将缩短数据加载时间-您可以尝试在接收器的“优化”选项卡下修改分区设置吗

我在默认分区设置中也遇到了类似的问题,在将分区策略更改为循环并提供了分区数为5的分区后,1M记录本身的数据加载时间接近30分钟以上,因为我的案例加载在不到一分钟的时间内发生



尝试同时使用源分区和接收器分区设置来获得最佳策略。这将缩短数据加载时间

感谢@Mark检查最后一张图像启动Spark cluster需要6分钟,在Sink中写入数据库需要45分钟。数据流的总端到端执行时间是多少?我已经更新了新的进程Thank@Mark check上一张图片启动Spark cluster需要6分钟,在Sink中写入数据库需要45分钟。数据流的总端到端执行时间是多少?我已经更新了新流程感谢我正在查看spark:我现在使用spark更新了新流程?我发现你可能会花无数个小时以错误的方式做一些事情,但如果这是你知道的唯一方式,你就会被困在这样做。或者,花几个小时做一些研究,找出一个更好的方法来做事情,然后为自己节省无数的时间,直到将来。谢谢,我正在寻找火花:我现在使用火花更新了新的流程?我发现你可以花无数的时间做错误的事情,但如果这是你知道的唯一方法,你会被困在那样做。或者,花几个小时做一些研究,找出一个更好的方法来做事情,然后为自己节省无数的时间,直到将来。我已经更新了流程,并使用循环优化,选择了10个分区。另外,添加新图像的好处是,从源到它需要1分钟,但从接收器到DB需要48分钟,但整个过程是ta
king 111分钟:我已经更新了流程,并使用循环优化,选择了10个分区。另外,添加新图像好的是,从源到它需要1分钟,但从接收器到DB需要48分钟,但整个过程仍然需要111分钟:我更新了新过程我更新了新过程