Snowflake cloud data platform 从其他Snowflake DB';派生的数据保持自定义表最新的最佳实践;它在我们的仓库里
(代表雪花用户提交)Snowflake cloud data platform 从其他Snowflake DB';派生的数据保持自定义表最新的最佳实践;它在我们的仓库里,snowflake-cloud-data-platform,Snowflake Cloud Data Platform,(代表雪花用户提交) 我们有一个数据库,存储来自所有本地来源的原始数据。我的团队有自己的环境,在这个环境中,我们拥有创建标准化提要和/或表/视图等的完全权限,这些提要和/或表/视图可以通过Power BI使用。其他一些细节: 最终的“提要”表是通过SQL语句派生的,大多数都是从“原始”数据的多个表中提取的 原始表数据每天更新 我的问题是,保持表完全更新的最佳操作是什么?此操作的标准工作流程是什么?我们目前的理解是,其中一个过程是最好的: 使用复制到,然后使用复制到 使用STREAMS添加增
我们有一个数据库,存储来自所有本地来源的原始数据。我的团队有自己的环境,在这个环境中,我们拥有创建标准化提要和/或表/视图等的完全权限,这些提要和/或表/视图可以通过Power BI使用。其他一些细节:
- 最终的“提要”表是通过SQL语句派生的,大多数都是从“原始”数据的多个表中提取的
- 原始表数据每天更新
复制到
,然后使用复制到
李>
STREAMS
添加增量数据李>
管道
(可能与流相同)任务
已被推荐,因为它似乎非常适合,因为它们每天只需更新最终表格一次。
()
还有其他建议吗???谢谢 我们有一个类似的场景,即从S3中的文件实时更新原始datalake表。这些原始表格是使用自动摄取功能通过雪管加载的 反过来,我们有一个数据集市,其中包含有关原始数据的事实。为了更新数据集市,我们在原始表的顶部创建了流来跟踪更改。然后,我们使用以给定频率运行的任务(在本例中,每五分钟一次)从原始表中更改的数据更新数据集市。使用streams允许我们将处理限制为仅更改数据,而不必跟踪上次更新日期等