Google cloud platform GCP中的流水线

Google cloud platform GCP中的流水线,google-cloud-platform,google-bigquery,google-cloud-dataflow,google-cloud-composer,Google Cloud Platform,Google Bigquery,Google Cloud Dataflow,Google Cloud Composer,我定期从数据源收集大量数据,并存储在GCS存储桶中。目前,它们存储在一个本地区(伦敦)。我们正在使用GCP服务组合(即composer、dataflow或cloud函数等)通过ETL将这些数据传输到位于同一地区(如europe-west2 London)的BigQuery表 除此之外,我还希望将这些数据(例如桶)通过管道传输到位于不同地区的不同BQ表 总之,输出是位于两个不同区域的大型查询表,如下所示: GCS桶:项目1,伦敦桶(欧洲-西部2) 产出1:项目1区域1(欧洲-伦敦西部)的BQ表(现

我定期从数据源收集大量数据,并存储在GCS存储桶中。目前,它们存储在一个本地区(伦敦)。我们正在使用GCP服务组合(即composer、dataflow或cloud函数等)通过ETL将这些数据传输到位于同一地区(如europe-west2 London)的BigQuery表

除此之外,我还希望将这些数据(例如桶)通过管道传输到位于不同地区的不同BQ表

总之,输出是位于两个不同区域的大型查询表,如下所示:

GCS桶:项目1,伦敦桶(欧洲-西部2)

产出1:项目1区域1(欧洲-伦敦西部)的BQ表(现有)

期望值: 输出2:project2区域2(欧盟)的BQ表-多区域或比利时

我能做到这一点吗?我应该如何有效地做到这一点


感谢您在这方面的建议和帮助。谢谢大家!

一个选项是使用BigQuery的。该功能目前处于测试阶段,目前是免费的(请注意,它可能并不总是免费的)


尽管该服务位于有限的位置,但europe-west2和EU均受支持。

除了跨地区拷贝之外,您还可以设计从GCS读取文件并将其传送到发布子主题的管道。然后从Pub Sub-topic向其发送特定于区域的BigQuery

谢谢你提供这些信息。是的,我已经用了几个星期了。我可以跨地区复制数据集,但谷歌似乎只允许一天复制两次。有没有一种简单的方法可以更频繁地(即每小时一次)这样做?@busheriff我相信这是有限制的,因为它现在是免费的。一旦你能为你所用的东西买单,你想花多少钱就没有限制了:)