Snowflake cloud data platform 雪花事实表中的大规模删除

Snowflake cloud data platform 雪花事实表中的大规模删除,snowflake-cloud-data-platform,Snowflake Cloud Data Platform,在雪花中。是否有擦除/清除旧数据的最佳实践,即历史上在大型事实表的边缘运行?毕竟,在传统的RDBMS(如SQL Server)中,这是您传统上使用分区的目的。截断SQL Server中的分区需要毫秒 致意 Jan您可以在Snowflake上以与SQL Server中的分区类似的方式使用集群。它们并不完全相同,但如果要按日期删除旧数据,则可以按该日期进行集群。这样,当您删除旧的微分区时,Snowflake就不需要创建新的微分区或在现有的微分区内搜索以查找要删除的记录……它只需删除需要删除的文件,这

在雪花中。是否有擦除/清除旧数据的最佳实践,即历史上在大型事实表的边缘运行?毕竟,在传统的RDBMS(如SQL Server)中,这是您传统上使用分区的目的。截断SQL Server中的分区需要毫秒

致意
Jan

您可以在Snowflake上以与SQL Server中的分区类似的方式使用集群。它们并不完全相同,但如果要按日期删除旧数据,则可以按该日期进行集群。这样,当您删除旧的微分区时,Snowflake就不需要创建新的微分区或在现有的微分区内搜索以查找要删除的记录……它只需删除需要删除的文件,这是一种元数据操作,速度很快


也就是说,如果您是按照相同日期字段的顺序加载数据,那么您的表可能已经在该日期字段上进行了相当好的集群。如果事实是非常大的,那么在该日期字段上进行集群可能需要一些时间,如果它还没有自然地按照这种方式排序的话,但是它有很多好处,包括您在本文中询问的用例。

您可以在Snowflake上以类似于SQL Server中分区的方式使用集群。它们并不完全相同,但如果要按日期删除旧数据,则可以按该日期进行集群。这样,当您删除旧的微分区时,Snowflake就不需要创建新的微分区或在现有的微分区内搜索以查找要删除的记录……它只需删除需要删除的文件,这是一种元数据操作,速度很快


也就是说,如果您是按照相同日期字段的顺序加载数据,那么您的表可能已经在该日期字段上进行了相当好的集群。如果事实是非常大的,那么在该日期字段上进行聚类可能需要一些时间,如果它还没有按自然顺序排列的话,但是它有很多好处,包括您在本文中询问的用例。

谢谢您的回答。是的,这是一种很自然的方式,但我读到一篇文章,有人在这种情况下长时间运行删除时遇到了问题。但如果这是最佳实践的话,我猜这家伙的表很糟糕。你有那篇文章的推荐人吗?我看到的大多数问题是人们认为他们需要一次迭代并删除一小部分记录,这是不正确的。否则,这是最好的方法。群集创建微分区修剪,并将显著减少删除时间。严重…或不同群集。如果集群键不是您要删除的日期,那么delete语句可以重建整个表。如果仓库太小而无法完成,那么可能需要很长时间。谢谢你的回答。是的,这是一种很自然的方式,但我读到一篇文章,有人在这种情况下长时间运行删除时遇到了问题。但如果这是最佳实践的话,我猜这家伙的表很糟糕。你有那篇文章的推荐人吗?我看到的大多数问题是人们认为他们需要一次迭代并删除一小部分记录,这是不正确的。否则,这是最好的方法。群集创建微分区修剪,并将显著减少删除时间。严重…或不同群集。如果集群键不是您要删除的日期,那么delete语句可以重建整个表。如果仓库太小而无法完成,那么可能需要很长时间。