正在寻找一个替代解决方案来处理从Azure Blob到Azure SQL DB的成千上万个JSON
我目前开发的管道利用Azure Data Factory进行编排,利用Azure DataBricks进行计算,以执行以下操作。。。我实时接收数万个单记录json文件到Azure Blob中,并在15分钟内检查文件夹中是否有任何新文件,一旦发现,我就使用DataRicks将其加载到数据帧中,并将其加载到SQL DB中的单个文件中,然后让其他ADF作业触发存储过程,然后将数据转换为最终SQL表。。。。我们希望从Databricks转移出去,因为我们并不是为了它的真正功能而使用它,而是为了支付Databricks的成本。正在寻找其他解决方案的想法,以便定期(即15分钟)将数万个JSON加载到SQL DB中(最少或不进行转换)。我们是一家microsoft商店,因此不打算离开Azure工具。以下是一些想法:正在寻找一个替代解决方案来处理从Azure Blob到Azure SQL DB的成千上万个JSON,azure,etl,pipeline,databricks,Azure,Etl,Pipeline,Databricks,我目前开发的管道利用Azure Data Factory进行编排,利用Azure DataBricks进行计算,以执行以下操作。。。我实时接收数万个单记录json文件到Azure Blob中,并在15分钟内检查文件夹中是否有任何新文件,一旦发现,我就使用DataRicks将其加载到数据帧中,并将其加载到SQL DB中的单个文件中,然后让其他ADF作业触发存储过程,然后将数据转换为最终SQL表。。。。我们希望从Databricks转移出去,因为我们并不是为了它的真正功能而使用它,而是为了支付Dat
- 使用Azure函数+Blob触发器/事件网格实时处理JSON文件(每次新JSON文件到达时,它都会触发您的函数)。然后,您可以插入到最终表中,也可以插入到临时表中
- 另一个想法是将Azure功能与Blob触发器/事件网格相结合,将数据放入数据湖。您可以使用ADF将其下沉到SQL最终表
- 使用Azure函数+Blob触发器/事件网格实时处理JSON文件(每次新JSON文件到达时,它都会触发您的函数)。然后,您可以插入到最终表中,也可以插入到临时表中
- 另一个想法是将Azure功能与Blob触发器/事件网格相结合,将数据放入数据湖。您可以使用ADF将其下沉到SQL最终表
- 以下是一些想法:
OPENROWSET
直接从blob存储导入数据,然后OPENJSON
将其分解。然后你可以使用一个按计划运行的逻辑应用程序来调用proc,比如说每15分钟,你甚至不需要ADF作为解决方案的一部分
我之前已经得出了两个类似的答案,例如,但是,如果您想在这条路线上取得更大进展,请告诉我,我们可以做一些更详细的工作。Azure SQL DB实际上非常适合JSON,因此您可以使用
OPENROWSET
直接从blob store导入数据,然后OPENJSON
将其分解。然后你可以使用一个按计划运行的逻辑应用程序来调用proc,比如说每15分钟,你甚至不需要ADF作为解决方案的一部分
我之前已经得出了两个类似的答案,例如和,但如果您想在这条路线上取得更大进展,请告诉我,我们可以得出更详细的答案。对于24核机器,SQL Server并发连接限制为2400。这将被超过,因为每15分钟就有成千上万的文件登录。对于24核计算机,SQL Server并发连接限制为2400。这将被超过,因为我们有成千上万的文件每15分钟着陆。我会考虑这种方式,并希望避免由于映射限制ADF。我们的JSON也不一致。它们来自只发送填充字段的数据库。不是每个源都存在的所有字段。我也在考虑使用Azure批处理。我会考虑这种方式,并希望避免由于映射限制而导致的ADF。我们的JSON也不一致。它们来自只发送填充字段的数据库。不是每个记录源中存在的所有字段。我也在考虑使用Azure批处理。