Azure 从湖中读取数据_Azure_Azure Sql Database_Azure Cosmosdb_Azure Data Factory_Azure Data Lake

Azure 从湖中读取数据

azure azure-sql-database azure-cosmosdb azure-data-factory

Azure 从湖中读取数据,azure,azure-sql-database,azure-cosmosdb,azure-data-factory,azure-data-lake,Azure,Azure Sql Database,Azure Cosmosdb,Azure Data Factory,Azure Data Lake,我需要从azure data lake读取azure数据，并在sql中应用一些连接，并在Web UI中显示。数据约为300 gb，从azure Data factory到azure sql数据库的数据迁移速度为4Mbps。我还尝试使用sql server 2019，它支持polybase，但复制数据也需要12-13个小时。还尝试了cosmos db来存储来自lake的数据，但似乎需要花费大量时间我们可以用任何其他方法从湖中读取数据。一种方法可以是azure数据仓库，但成本太高，只支持1

我需要从azure data lake读取azure数据，并在sql中应用一些连接，并在Web UI中显示。数据约为300 gb，从azure Data factory到azure sql数据库的数据迁移速度为4Mbps。我还尝试使用sql server 2019，它支持polybase，但复制数据也需要12-13个小时。还尝试了cosmos db来存储来自lake的数据，但似乎需要花费大量时间

我们可以用任何其他方法从湖中读取数据。一种方法可以是azure数据仓库，但成本太高，只支持128个并发事务。

可以使用databricks，但它是一个计算引擎，我们需要它能够全天候用于UI查询

我仍然建议您使用Azure Data Factory。正如您所说，您的数据大约为300 gb

以下是：

我同意David Makogon的观点。数据工厂的性能非常慢（4Mbps）。请参考本文件

它将帮助您提高数据工厂数据复制性能，提供有关数据工厂设置或数据库设置的更多建议

希望这能有所帮助。

我也遇到过类似的情况，只是数据量增加了+-900GB。如果您需要在ui中显示它，您仍然需要将数据加载到Azure SQL，因为DWH不太擅长处理并行加载及其代价。我们最终使用了blob存储中的大容量插入。我创建了sp来调用带有参数（源文件、目标表）的批量插入，并创建了ADF来协调和并行运行。找不到比这更快的了。

ADLS第1代或第2代？@Sam Cogan-ADLS第1代有没有办法从数据湖进行批量复制？您到底想实现什么？data lake的全部意义在于，您将数据保留在那里，并对其进行报告和分析，那么您为什么要移动它？@SamCogan—转换data lake内容并在转换后将其放在OLTP或数据仓库中是一个非常常见的用例。OP没有说数据正在移动；他们提到了执行SQL连接（所以…转换）。已经经历了这一过程，但只能从1 mbps增加到4 mbps，没有多少：(