Apache spark 将大量数据从SQL Server传输到Azure SQL Server的最佳方法。Azure数据工厂、HDInsight等_Apache Spark_Hadoop_Azure Sql Database_Azure Hdinsight_Azure Data Factory 2

Apache spark 将大量数据从SQL Server传输到Azure SQL Server的最佳方法。Azure数据工厂、HDInsight等

apache-spark hadoop azure-sql-database

Apache spark 将大量数据从SQL Server传输到Azure SQL Server的最佳方法。Azure数据工厂、HDInsight等,apache-spark,hadoop,azure-sql-database,azure-hdinsight,azure-data-factory-2,Apache Spark,Hadoop,Azure Sql Database,Azure Hdinsight,Azure Data Factory 2,我想找到将20 GB的SQL数据从安装在客户现场服务器（客户端）上的SQL Server数据库传输到我们的Azure SQL Server（源）的最佳方法，该服务器安装在S4上，性能为200，每月320美元。在进行初始设置时，我们设置了一个Azure数据工厂，通过多个表副本（例如，客户端表A的内容到源表A，客户端表B的内容到源表B）复制超过20 GB的数据，等等。然后，我们运行许多提取器存储过程，通过将这些源表连接在一起，将源表中的数据插入到Stage表中，例如，源A连接到源B。之后是增量拷贝，

我想找到将20 GB的SQL数据从安装在客户现场服务器（客户端）上的SQL Server数据库传输到我们的Azure SQL Server（源）的最佳方法，该服务器安装在S4上，性能为200，每月320美元。在进行初始设置时，我们设置了一个Azure数据工厂，通过多个表副本（例如，客户端表A的内容到源表A，客户端表B的内容到源表B）复制超过20 GB的数据，等等。然后，我们运行许多提取器存储过程，通过将这些源表连接在一起，将源表中的数据插入到Stage表中，例如，源A连接到源B。之后是增量拷贝，但初始设置确实要花费很长时间

目前，S4上的复制时间约为12小时，提取时间为4小时。以每月2400美元的价格将性能层增加到1600 DTU的S9，将时间减少到6小时，提取时间减少到2小时，但这会带来更高的成本

我想知道是否还有其他Azure方法。与将Azure SQL DB扩展到S9或更多版本相比，使用Hadoop或Spark设置HDInsight群集在成本上是否更高效？每月2400美元、为期31天的S9是每小时3.28美元。是每小时1.496美元，所以比S9便宜。然而，就性能而言，它是如何比较的呢。复制过程会更快还是提取过程会更快

我还不习惯大数据方法。感谢您的帮助。

Azure Data Factory Copy Activity提供了一流的安全、可靠和高性能数据加载解决方案。它使您能够每天跨各种各样的云和内部部署数据存储复制数十TB的数据。复制活动提供了高度优化的数据加载体验，易于配置和设置

您可以查看有关复制活动的性能参考表：下表显示了基于内部测试运行的单个拷贝活动中给定源和接收器对的拷贝吞吐量（以MBps为单位）

如果您希望通过使用Azure data Factory Copy活动更快地传输数据，Azure提供了三种实现更高吞吐量的方法：

数据集成单元。数据集成单元（DIU）（以前称为云数据移动单元或DMU）是表示数据工厂中单个单元的功率（CPU、内存和网络资源分配的组合）的度量。您可以通过使用更多的数据集成单元（DIU）实现更高的吞吐量。您将根据复制操作的总时间收费。为数据移动计费的总持续时间是整个DIU的持续时间之和

平行副本。我们可以使用parallelCopies属性来指示复制活动要使用的并行性。对于每个复制活动运行，Data Factory确定用于将数据从源数据存储复制到目标数据存储的并行副本数

分阶段复制。将数据从源数据存储复制到接收器数据存储时，可以选择使用Blob存储作为临时暂存存储

您可以采用以下方法通过复制活动调整Data Factory服务的性能

有关Azure Data Factory复制活动性能的更多详细信息，请参阅：

Azure Data Factory Copy Activity提供一流的安全、可靠和高性能数据加载解决方案。它使您能够每天跨各种各样的云和内部部署数据存储复制数十TB的数据。复制活动提供了高度优化的数据加载体验，易于配置和设置

您可以查看有关复制活动的性能参考表：下表显示了基于内部测试运行的单个拷贝活动中给定源和接收器对的拷贝吞吐量（以MBps为单位）

如果您希望通过使用Azure data Factory Copy活动更快地传输数据，Azure提供了三种实现更高吞吐量的方法：

分阶段复制。将数据从源数据存储复制到接收器数据存储时，可以选择使用Blob存储作为临时暂存存储

您可以采用以下方法通过复制活动调整Data Factory服务的性能

有关Azure Data Factory复制活动性能的更多详细信息，请参阅：

如果您想在这里调查大数据方法，请使用Azure Databricks。它具有Spark和对按需集群的一流支持。您可以使用ADF加载Azure Blob存储，并在加载SQL Server之前尝试使用Spark SQL进行连接。是否有原因使您无法在作业运行期间临时扩展ie？按照@LeonYue的建议，在数据工厂中启用staging选项可能会有所不同-请确认。您能否确认您正在进行增量加载，而不是每次都进行完全加载？你们有快车路线吗？对于这个相对较小的体积来说，提取物确实显得特别长。@wBob。T