Azure数据工厂和数据流花费太多时间来处理从暂存到数据库的数据_Azure_Azure Data Factory_Azure Data Factory 2

Azure数据工厂和数据流花费太多时间来处理从暂存到数据库的数据

azure azure-data-factory

Azure数据工厂和数据流花费太多时间来处理从暂存到数据库的数据,azure,azure-data-factory,azure-data-factory-2,Azure,Azure Data Factory,Azure Data Factory 2,所以我有一个每天运行的数据工厂，它从oracle内部数据库中选择大约8000万条记录的数据，并将其移动到拼花文件中，这大约需要2个小时，我想加快这个过程。。。还包括在数据库中插入和更新数据的数据流过程拼花锉刀下一步是从拼花文件调用数据流，将数据向上插入到数据库，但这也会占用太多时间数据流设置让我知道数据流的计算类型内存优化计算优化通用循环更新后下沉时间能否打开数据流的监控详细执行计划？单击数据流中的每个阶段，查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多

所以我有一个每天运行的数据工厂，它从oracle内部数据库中选择大约8000万条记录的数据，并将其移动到拼花文件中，这大约需要2个小时，我想加快这个过程。。。还包括在数据库中插入和更新数据的数据流过程

拼花锉刀

下一步是从拼花文件调用数据流，将数据向上插入到数据库，但这也会占用太多时间

数据流设置

让我知道数据流的计算类型

内存优化计算优化通用

循环更新后

下沉时间

能否打开数据流的监控详细执行计划？单击数据流中的每个阶段，查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多少时间，读取源代码花费了多少时间，还应该检查接收器上的总写入时间

我有一些如何查看和优化的示例。

您能打开数据流的监控详细执行计划吗？单击数据流中的每个阶段，查看大部分时间都花在了哪里。您应该在视图顶部看到设置计算环境花费了多少时间，读取源代码花费了多少时间，还应该检查接收器上的总写入时间

我有一些如何查看和优化的例子。

好吧，我想45分钟把8500万个文件塞进SQL数据库并不可怕。您可以将任务分解为多个部分，并查看哪些部分需要最长时间才能完成。你有访问数据库的权限吗？我用Databricks做了很多预处理，我发现Spark非常快！！如果您可以在Databricks中预处理并将所有内容推入SQL世界，您可能会有一个最佳的解决方案。

好吧，我猜45分钟将8500万个文件塞进SQL DB并不可怕。您可以将任务分解为多个部分，并查看哪些部分需要最长时间才能完成。你有访问数据库的权限吗？我用Databricks做了很多预处理，我发现Spark非常快！！如果您可以在Databricks中预处理并将所有内容推送到您的SQL世界中，您可能有一个最佳解决方案。

根据文档，您可以尝试在接收器的“优化”选项卡下修改分区设置吗

我在默认分区设置中也遇到了类似的问题，在将分区策略更改为循环并提供了分区数为5的分区后，1M记录本身的数据加载时间接近30分钟以上，因为我的案例加载在不到一分钟的时间内发生

尝试同时使用源分区和接收器分区设置来获得最佳策略。根据文档，这将缩短数据加载时间-您可以尝试在接收器的“优化”选项卡下修改分区设置吗

尝试同时使用源分区和接收器分区设置来获得最佳策略。这将缩短数据加载时间

感谢@Mark检查最后一张图像启动Spark cluster需要6分钟，在Sink中写入数据库需要45分钟。数据流的总端到端执行时间是多少？我已经更新了新的进程Thank@Mark check上一张图片启动Spark cluster需要6分钟，在Sink中写入数据库需要45分钟。数据流的总端到端执行时间是多少？我已经更新了新流程感谢我正在查看spark：我现在使用spark更新了新流程？我发现你可能会花无数个小时以错误的方式做一些事情，但如果这是你知道的唯一方式，你就会被困在这样做。或者，花几个小时做一些研究，找出一个更好的方法来做事情，然后为自己节省无数的时间，直到将来。谢谢，我正在寻找火花：我现在使用火花更新了新的流程？我发现你可以花无数的时间做错误的事情，但如果这是你知道的唯一方法，你会被困在那样做。或者，花几个小时做一些研究，找出一个更好的方法来做事情，然后为自己节省无数的时间，直到将来。我已经更新了流程，并使用循环优化，选择了10个分区。另外，添加新图像的好处是，从源到它需要1分钟，但从接收器到DB需要48分钟，但整个过程是ta

king 111分钟：我已经更新了流程，并使用循环优化，选择了10个分区。另外，添加新图像好的是，从源到它需要1分钟，但从接收器到DB需要48分钟，但整个过程仍然需要111分钟：我更新了新过程我更新了新过程