Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
正在寻找一个替代解决方案来处理从Azure Blob到Azure SQL DB的成千上万个JSON_Azure_Etl_Pipeline_Databricks - Fatal编程技术网

正在寻找一个替代解决方案来处理从Azure Blob到Azure SQL DB的成千上万个JSON

正在寻找一个替代解决方案来处理从Azure Blob到Azure SQL DB的成千上万个JSON,azure,etl,pipeline,databricks,Azure,Etl,Pipeline,Databricks,我目前开发的管道利用Azure Data Factory进行编排,利用Azure DataBricks进行计算,以执行以下操作。。。我实时接收数万个单记录json文件到Azure Blob中,并在15分钟内检查文件夹中是否有任何新文件,一旦发现,我就使用DataRicks将其加载到数据帧中,并将其加载到SQL DB中的单个文件中,然后让其他ADF作业触发存储过程,然后将数据转换为最终SQL表。。。。我们希望从Databricks转移出去,因为我们并不是为了它的真正功能而使用它,而是为了支付Dat

我目前开发的管道利用Azure Data Factory进行编排,利用Azure DataBricks进行计算,以执行以下操作。。。我实时接收数万个单记录json文件到Azure Blob中,并在15分钟内检查文件夹中是否有任何新文件,一旦发现,我就使用DataRicks将其加载到数据帧中,并将其加载到SQL DB中的单个文件中,然后让其他ADF作业触发存储过程,然后将数据转换为最终SQL表。。。。我们希望从Databricks转移出去,因为我们并不是为了它的真正功能而使用它,而是为了支付Databricks的成本。正在寻找其他解决方案的想法,以便定期(即15分钟)将数万个JSON加载到SQL DB中(最少或不进行转换)。我们是一家microsoft商店,因此不打算离开Azure工具。

以下是一些想法:

  • 使用Azure函数+Blob触发器/事件网格实时处理JSON文件(每次新JSON文件到达时,它都会触发您的函数)。然后,您可以插入到最终表中,也可以插入到临时表中

  • 另一个想法是将Azure功能与Blob触发器/事件网格相结合,将数据放入数据湖。您可以使用ADF将其下沉到SQL最终表

    • 以下是一些想法:

      • 使用Azure函数+Blob触发器/事件网格实时处理JSON文件(每次新JSON文件到达时,它都会触发您的函数)。然后,您可以插入到最终表中,也可以插入到临时表中

      • 另一个想法是将Azure功能与Blob触发器/事件网格相结合,将数据放入数据湖。您可以使用ADF将其下沉到SQL最终表


      Azure SQL DB实际上在JSON方面非常强大,因此您可以使用
      OPENROWSET
      直接从blob存储导入数据,然后
      OPENJSON
      将其分解。然后你可以使用一个按计划运行的逻辑应用程序来调用proc,比如说每15分钟,你甚至不需要ADF作为解决方案的一部分


      我之前已经得出了两个类似的答案,例如,但是,如果您想在这条路线上取得更大进展,请告诉我,我们可以做一些更详细的工作。

      Azure SQL DB实际上非常适合JSON,因此您可以使用
      OPENROWSET
      直接从blob store导入数据,然后
      OPENJSON
      将其分解。然后你可以使用一个按计划运行的逻辑应用程序来调用proc,比如说每15分钟,你甚至不需要ADF作为解决方案的一部分


      我之前已经得出了两个类似的答案,例如和,但如果您想在这条路线上取得更大进展,请告诉我,我们可以得出更详细的答案。

      对于24核机器,SQL Server并发连接限制为2400。这将被超过,因为每15分钟就有成千上万的文件登录。对于24核计算机,SQL Server并发连接限制为2400。这将被超过,因为我们有成千上万的文件每15分钟着陆。我会考虑这种方式,并希望避免由于映射限制ADF。我们的JSON也不一致。它们来自只发送填充字段的数据库。不是每个源都存在的所有字段。我也在考虑使用Azure批处理。我会考虑这种方式,并希望避免由于映射限制而导致的ADF。我们的JSON也不一致。它们来自只发送填充字段的数据库。不是每个记录源中存在的所有字段。我也在考虑使用Azure批处理。