Azure 从湖中读取数据

Azure 从湖中读取数据,azure,azure-sql-database,azure-cosmosdb,azure-data-factory,azure-data-lake,Azure,Azure Sql Database,Azure Cosmosdb,Azure Data Factory,Azure Data Lake,我需要从azure data lake读取azure数据,并在sql中应用一些连接,并在Web UI中显示。 数据约为300 gb,从azure Data factory到azure sql数据库的数据迁移速度为4Mbps。 我还尝试使用sql server 2019,它支持polybase,但复制数据也需要12-13个小时。 还尝试了cosmos db来存储来自lake的数据,但似乎需要花费大量时间 我们可以用任何其他方法从湖中读取数据。 一种方法可以是azure数据仓库,但成本太高,只支持1

我需要从azure data lake读取azure数据,并在sql中应用一些连接,并在Web UI中显示。 数据约为300 gb,从azure Data factory到azure sql数据库的数据迁移速度为4Mbps。 我还尝试使用sql server 2019,它支持polybase,但复制数据也需要12-13个小时。 还尝试了cosmos db来存储来自lake的数据,但似乎需要花费大量时间

我们可以用任何其他方法从湖中读取数据。 一种方法可以是azure数据仓库,但成本太高,只支持128个并发事务。
可以使用databricks,但它是一个计算引擎,我们需要它能够全天候用于UI查询

我仍然建议您使用Azure Data Factory。正如您所说,您的数据大约为300 gb

以下是:

我同意David Makogon的观点。数据工厂的性能非常慢(4Mbps)。请参考本文件

它将帮助您提高数据工厂数据复制性能,提供有关数据工厂设置或数据库设置的更多建议


希望这能有所帮助。

我也遇到过类似的情况,只是数据量增加了+-900GB。 如果您需要在ui中显示它,您仍然需要将数据加载到Azure SQL,因为DWH不太擅长处理并行加载及其代价。 我们最终使用了blob存储中的大容量插入。 我创建了sp来调用带有参数(源文件、目标表)的批量插入,并创建了ADF来协调和并行运行。 找不到比这更快的了。

ADLS第1代或第2代?@Sam Cogan-ADLS第1代有没有办法从数据湖进行批量复制?您到底想实现什么?data lake的全部意义在于,您将数据保留在那里,并对其进行报告和分析,那么您为什么要移动它?@SamCogan—转换data lake内容并在转换后将其放在OLTP或数据仓库中是一个非常常见的用例。OP没有说数据正在移动;他们提到了执行SQL连接(所以…转换)。已经经历了这一过程,但只能从1 mbps增加到4 mbps,没有多少:(