Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 在BigQueryDWH中使用合并功能将数据从statging表加载到维度和事实是否正确?_Google Cloud Platform_Google Bigquery_Google Cloud Functions_Google Cloud Dataflow - Fatal编程技术网

Google cloud platform 在BigQueryDWH中使用合并功能将数据从statging表加载到维度和事实是否正确?

Google cloud platform 在BigQueryDWH中使用合并功能将数据从statging表加载到维度和事实是否正确?,google-cloud-platform,google-bigquery,google-cloud-functions,google-cloud-dataflow,Google Cloud Platform,Google Bigquery,Google Cloud Functions,Google Cloud Dataflow,我正在从事一个BigQueryDWH项目,目前我们正在使用MERGE(因为大多数数据加载是SCDType1)将数据从staging加载到dims/facts,并对所有列进行散列,以检查hashvalue是新的还是更改的。它工作得很好,每个查询处理6000-7000万行需要消耗30GB的内存。有近30个合并查询。这是加载数据的正确方法吗?我们不使用任何第三方数据集成工具。请分享任何提示/经验 谢谢 为了正确回答您的问题,您能否提供有关您的流程的更多信息?例如,如何将数据加载到BigQuery(从G

我正在从事一个BigQueryDWH项目,目前我们正在使用MERGE(因为大多数数据加载是SCDType1)将数据从staging加载到dims/facts,并对所有列进行散列,以检查hashvalue是新的还是更改的。它工作得很好,每个查询处理6000-7000万行需要消耗30GB的内存。有近30个合并查询。这是加载数据的正确方法吗?我们不使用任何第三方数据集成工具。请分享任何提示/经验


谢谢

为了正确回答您的问题,您能否提供有关您的流程的更多信息?例如,如何将数据加载到BigQuery(从GCS、本地..)?加载后,您是否使用merge更新/插入/删除数据以及用于什么?感谢@AlexandreMoraes的回复,我们正在使用dataflow从ERP源读取数据并加载到BIGQUERY临时数据集表中。现在,我们使用合并查询将数据从暂存数据集表加载到表示数据集表(维度和事实表)。合并查询仅用于更新和插入,如果发现该行是新的,则将插入该行,如果更改,则更新。此插入/更新基于源表和目标表之间的哈希比较。感谢您的回复。我看到您正在使用推荐的方法之一,即使用数据流将数据加载到BigQuery中。然后使用MERGE,您可以保证数据的一致性和完整性。因此,您的过程是准确的。