Google cloud dataflow 用于实时聚合分析的数据流管道设计

Google cloud dataflow 用于实时聚合分析的数据流管道设计,google-cloud-dataflow,google-cloud-pubsub,Google Cloud Dataflow,Google Cloud Pubsub,我的情况如下: 1) 在数据流中使用pubsub作为输入,并将流数据加载到bigquery 2) 从bigquery中选择聚合结果并加载到pubsub作为输出 3) 侦听pubsub以进行显示的客户端 e、 g.我有销售交易记录,希望实时查看区域(合计)销售数据。我知道我可以使用2个管道将数据加载到bigquery(1)和其他数据流管道,以获得聚合结果并推送到pubsub 在单一管道中有什么方法可以实现吗?因为我不想构建业务流程层(即,在第一条管道完成后,调用第二条管道)。而且初始化管道的成本很

我的情况如下:

1) 在数据流中使用pubsub作为输入,并将流数据加载到bigquery 2) 从bigquery中选择聚合结果并加载到pubsub作为输出 3) 侦听pubsub以进行显示的客户端

e、 g.我有销售交易记录,希望实时查看区域(合计)销售数据。我知道我可以使用2个管道将数据加载到bigquery(1)和其他数据流管道,以获得聚合结果并推送到pubsub

在单一管道中有什么方法可以实现吗?因为我不想构建业务流程层(即,在第一条管道完成后,调用第二条管道)。而且初始化管道的成本很高


谢谢。

我认为这可以通过单个数据流管道来完成,其中pubsub作为输入,bigquery和pubsub作为接收器

基本上: 1.PubsubIO->P收集A。 2.A->BigQueryIO 3.A->Window.into(…)->PCollection B。 4.B->GroupBy(…)->ParDo->C 5.C->PubsubIO


<强>

> P>在将BigQuin加载/流传输到BigQuy中的情况下,您也可以考虑使用BigQuess本身以成本效益的方式构建实时聚集,使用