Snowflake cloud data platform 雪花可以导入第三方ETL平台的元数据并与之集成';他自己要展示端到端的血统?

Snowflake cloud data platform 雪花可以导入第三方ETL平台的元数据并与之集成';他自己要展示端到端的血统?,snowflake-cloud-data-platform,snowflake-schema,Snowflake Cloud Data Platform,Snowflake Schema,我正在与一个希望将元数据导入Snowflake的客户一起工作,我想知道我的第三方工具是否可以 1) 工作 2) 与现有体系结构的数据策略保持一致 我收集有关浏览我的制造业市场的用户的数据。我的网站跟踪已登录和未登录用户的会话、视图和购物车。我使用Fivetran将收集web信息(非结构化json)的应用程序导入到我现有的体系结构中。此信息在30天后存档,并用于显示30天的季度摘要。我想复制和保存这些元数据,并在30天后将其转换为雪花 Data: { "Session id": "87461

我正在与一个希望将元数据导入Snowflake的客户一起工作,我想知道我的第三方工具是否可以 1) 工作 2) 与现有体系结构的数据策略保持一致

我收集有关浏览我的制造业市场的用户的数据。我的网站跟踪已登录和未登录用户的会话、视图和购物车。我使用Fivetran将收集web信息(非结构化json)的应用程序导入到我现有的体系结构中。此信息在30天后存档,并用于显示30天的季度摘要。我想复制和保存这些元数据,并在30天后将其转换为雪花

Data: 
{
  "Session id": "87461c424d2d0f29a6b0075d",
  "isActive": true,
  "email": "xx",
  "date": "",
  "cart": [“Item 1”, “Item 2 ],
  “Sale”: true
},{"Session id": "87461c424d2d0f29a6b0075d",
  "isActive": false,
  "email": "xx",
  "date": "",
  "cart": [ “Item 2” ],
  “Sale”: false
}

为了遵守HIPAA和GDCP,我需要能够删除或删除信息,我可以使用Snowflake的元数据来实现这一点,就像我在收集网站信息的软件中使用的方法一样吗?我可以使用存储过程根据用户给我的电子邮件删除信息,然后重新计算我以前计算的所有摘要吗?Snowflake的元数据能为我做到这一点吗?

感觉就像你把“元数据”这个词弄混了,如果你有来自某处的数据,你想输入Snowflake,此时它只是“数据”。你可以放任何你想要的数据。如果您想稍后更改该数据,snowflake是否具有允许您更改变量(JSON)数据以清理数据的函数,当然可以。您仍然需要知道数据的性质才能清理它。雪花“元数据”与表中的内容相关,但这实际上只是为了优化查询。但是,考虑到您正在“存储数据”,您只需要“更改数据”以符合规则。现在,第二点可能是,雪花存储数据的方式是否会在延迟一段时间后与更改数据保持一致(例如,每个客户保留策略延迟30天或N天)。在这种情况下,存储在分区中的所有“行”以及您更新的行都将被重写,因此最终几乎是一个完整的表重写(最坏的情况就是这样)。然后,如果您使用集群,那么如果您进行更新,您将受到影响,因为数据的顺序没有被排序,因此可能是随机的,需要更多的分区重写。目前,自动集群需要花费5倍的全表重写成本来重写GDPR相关数据PII清理更改的1/3分区,由于数据跨越分区的方式,以及UPDATE命令没有排序的方式。因此,如果您正在进行群集,请考虑始终将完整的表写入(以与集群相同的顺序)作为对表的大更新的成本。