Google cloud platform 从外部表读取与在Bigquery中加载数据并从中读取
我需要从GCS获取数据(csv格式)到Bigquery,然后对其执行ETL以生成结果。出现的csv格式可能不是固定的,可能会随着每个文件而微妙地改变。最好创建临时外部表,直接从GCS读取数据,然后进行处理,还是将数据加载到bigquery中的暂存表中,然后进行处理。我正在努力理解在执行效率方面什么是更好的设计。这些方法都有缺点吗 谷歌云平台有一个名为Composer的服务。这是Apache Airflow的GCPs版本,该软件用于管理数据管道和工作流。Composer是一个GCP产品,具有与GCS和BigQuery一起使用的内置函数。我建议您在Composer中构建管道 我们将composer与GCS和Bigquery一起使用来管理整个ETL过程 编写器>>从服务中提取原始文件>>将原始文件存储到地面军事系统 Composer>>从GCS提取原始文件>>转换原始文件>>将转换后的文件存储到GCS>>将转换后的文件存储到BigQueryGoogle cloud platform 从外部表读取与在Bigquery中加载数据并从中读取,google-cloud-platform,google-bigquery,Google Cloud Platform,Google Bigquery,我需要从GCS获取数据(csv格式)到Bigquery,然后对其执行ETL以生成结果。出现的csv格式可能不是固定的,可能会随着每个文件而微妙地改变。最好创建临时外部表,直接从GCS读取数据,然后进行处理,还是将数据加载到bigquery中的暂存表中,然后进行处理。我正在努力理解在执行效率方面什么是更好的设计。这些方法都有缺点吗 谷歌云平台有一个名为Composer的服务。这是Apache Airflow的GCPs版本,该软件用于管理数据管道和工作流。Composer是一个GCP产品,具有与GC
Composer有许多额外的管道管理功能,当ETL变得更加复杂时,您可以利用这些功能。谷歌云平台有一个名为Composer的服务。这是Apache Airflow的GCPs版本,该软件用于管理数据管道和工作流。Composer是一个GCP产品,具有与GCS和BigQuery一起使用的内置函数。我建议您在Composer中构建管道 我们将composer与GCS和Bigquery一起使用来管理整个ETL过程 编写器>>从服务中提取原始文件>>将原始文件存储到地面军事系统 Composer>>从GCS提取原始文件>>转换原始文件>>将转换后的文件存储到GCS>>将转换后的文件存储到BigQuery
Composer有许多额外的管道管理功能,当ETL变得更加复杂时,您可以利用这些功能。如果我理解正确,您希望在不中断流程的情况下处理由错误条目引起的异常 如果是这种情况,您希望使用CloudDataflow和ParDo来处理错误条目,并将它们粘贴到Cloud pubsub或等效文件中,以便使用单独的系统进行处理 有关更多信息,请参阅以下url
希望这有帮助。如果我理解正确,您希望在不中断流程的情况下处理由错误条目引起的异常 如果是这种情况,您希望使用CloudDataflow和ParDo来处理错误条目,并将它们粘贴到Cloud pubsub或等效文件中,以便使用单独的系统进行处理 有关更多信息,请参阅以下url 希望这有帮助