Snowflake cloud data platform 从其他Snowflake DB';派生的数据保持自定义表最新的最佳实践;它在我们的仓库里

Snowflake cloud data platform 从其他Snowflake DB';派生的数据保持自定义表最新的最佳实践;它在我们的仓库里,snowflake-cloud-data-platform,Snowflake Cloud Data Platform,(代表雪花用户提交) 我们有一个数据库,存储来自所有本地来源的原始数据。我的团队有自己的环境,在这个环境中,我们拥有创建标准化提要和/或表/视图等的完全权限,这些提要和/或表/视图可以通过Power BI使用。其他一些细节: 最终的“提要”表是通过SQL语句派生的,大多数都是从“原始”数据的多个表中提取的 原始表数据每天更新 我的问题是,保持表完全更新的最佳操作是什么?此操作的标准工作流程是什么?我们目前的理解是,其中一个过程是最好的: 使用复制到,然后使用复制到 使用STREAMS添加增

(代表雪花用户提交)


我们有一个数据库,存储来自所有本地来源的原始数据。我的团队有自己的环境,在这个环境中,我们拥有创建标准化提要和/或表/视图等的完全权限,这些提要和/或表/视图可以通过Power BI使用。其他一些细节:

  • 最终的“提要”表是通过SQL语句派生的,大多数都是从“原始”数据的多个表中提取的
  • 原始表数据每天更新
我的问题是,保持表完全更新的最佳操作是什么?此操作的标准工作流程是什么?我们目前的理解是,其中一个过程是最好的:

  • 使用
    复制到
    ,然后使用
    复制到
  • 使用
    STREAMS
    添加增量数据
  • 使用
    管道
    (可能与流相同)
  • 或者将提要简化为一个表源,并使用物化视图
  • 理想情况下,我们希望避免在电源bi级别查看以提高消耗速度


    任务
    已被推荐,因为它似乎非常适合,因为它们每天只需更新最终表格一次。 ()


    还有其他建议吗???谢谢

    我们有一个类似的场景,即从S3中的文件实时更新原始datalake表。这些原始表格是使用自动摄取功能通过雪管加载的

    反过来,我们有一个数据集市,其中包含有关原始数据的事实。为了更新数据集市,我们在原始表的顶部创建了流来跟踪更改。然后,我们使用以给定频率运行的任务(在本例中,每五分钟一次)从原始表中更改的数据更新数据集市。使用streams允许我们将处理限制为仅更改数据,而不必跟踪上次更新日期等