Apache spark 将大量数据从SQL Server传输到Azure SQL Server的最佳方法。Azure数据工厂、HDInsight等
我想找到将20 GB的SQL数据从安装在客户现场服务器(客户端)上的SQL Server数据库传输到我们的Azure SQL Server(源)的最佳方法,该服务器安装在S4上,性能为200,每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,通过多个表副本(例如,客户端表A的内容到源表A,客户端表B的内容到源表B)复制超过20 GB的数据,等等。然后,我们运行许多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到Stage表中,例如,源A连接到源B。之后是增量拷贝,但初始设置确实要花费很长时间 目前,S4上的复制时间约为12小时,提取时间为4小时。以每月2400美元的价格将性能层增加到1600 DTU的S9,将时间减少到6小时,提取时间减少到2小时,但这会带来更高的成本 我想知道是否还有其他Azure方法。与将Azure SQL DB扩展到S9或更多版本相比,使用Hadoop或Spark设置HDInsight群集在成本上是否更高效?每月2400美元、为期31天的S9是每小时3.28美元。是每小时1.496美元,所以比S9便宜。然而,就性能而言,它是如何比较的呢。复制过程会更快还是提取过程会更快Apache spark 将大量数据从SQL Server传输到Azure SQL Server的最佳方法。Azure数据工厂、HDInsight等,apache-spark,hadoop,azure-sql-database,azure-hdinsight,azure-data-factory-2,Apache Spark,Hadoop,Azure Sql Database,Azure Hdinsight,Azure Data Factory 2,我想找到将20 GB的SQL数据从安装在客户现场服务器(客户端)上的SQL Server数据库传输到我们的Azure SQL Server(源)的最佳方法,该服务器安装在S4上,性能为200,每月320美元。在进行初始设置时,我们设置了一个Azure数据工厂,通过多个表副本(例如,客户端表A的内容到源表A,客户端表B的内容到源表B)复制超过20 GB的数据,等等。然后,我们运行许多提取器存储过程,通过将这些源表连接在一起,将源表中的数据插入到Stage表中,例如,源A连接到源B。之后是增量拷贝,
我还不习惯大数据方法。感谢您的帮助。Azure Data Factory Copy Activity提供了一流的安全、可靠和高性能数据加载解决方案。它使您能够每天跨各种各样的云和内部部署数据存储复制数十TB的数据。复制活动提供了高度优化的数据加载体验,易于配置和设置 您可以查看有关复制活动的性能参考表: 下表显示了基于内部测试运行的单个拷贝活动中给定源和接收器对的拷贝吞吐量(以MBps为单位) 如果您希望通过使用Azure data Factory Copy活动更快地传输数据,Azure提供了三种实现更高吞吐量的方法:
Azure Data Factory Copy Activity提供一流的安全、可靠和高性能数据加载解决方案。它使您能够每天跨各种各样的云和内部部署数据存储复制数十TB的数据。复制活动提供了高度优化的数据加载体验,易于配置和设置 您可以查看有关复制活动的性能参考表: 下表显示了基于内部测试运行的单个拷贝活动中给定源和接收器对的拷贝吞吐量(以MBps为单位) 如果您希望通过使用Azure data Factory Copy活动更快地传输数据,Azure提供了三种实现更高吞吐量的方法:
如果您想在这里调查大数据方法,请使用Azure Databricks。它具有Spark和对按需集群的一流支持。您可以使用ADF加载Azure Blob存储,并在加载SQL Server之前尝试使用Spark SQL进行连接。是否有原因使您无法在作业运行期间临时扩展ie?按照@LeonYue的建议,在数据工厂中启用staging选项可能会有所不同-请确认。您能否确认您正在进行增量加载,而不是每次都进行完全加载?你们有快车路线吗?对于这个相对较小的体积来说,提取物确实显得特别长。@wBob。T