Google cloud dataflow 如何使用数据流并行读取pubsub源

Google cloud dataflow 如何使用数据流并行读取pubsub源,google-cloud-dataflow,google-cloud-pubsub,Google Cloud Dataflow,Google Cloud Pubsub,我对数据流非常陌生,我希望构建一个使用pubsub作为源的管道 我曾经研究过流媒体管道,它以flink作为流媒体引擎,kafka作为源,我们可以在flink中设置并行性来读取来自kafka的消息,这样消息处理可以并行进行,而不是顺序进行 我想知道在pubsub->dataflow中是否可以实现同样的功能,或者它只能按顺序读取消息。看看管道。这使用PubSub作为源,它将并行读取数据。默认情况下,多个线程将各自从pubsub读取一条消息,并将其交给下游转换进行处理 请注意,pubbq管道也可以是,

我对数据流非常陌生,我希望构建一个使用pubsub作为源的管道

我曾经研究过流媒体管道,它以flink作为流媒体引擎,kafka作为源,我们可以在flink中设置并行性来读取来自kafka的消息,这样消息处理可以并行进行,而不是顺序进行

我想知道在pubsub->dataflow中是否可以实现同样的功能,或者它只能按顺序读取消息。

看看管道。这使用PubSub作为源,它将并行读取数据。默认情况下,多个线程将各自从pubsub读取一条消息,并将其交给下游转换进行处理


请注意,pubbq管道也可以是,这对许多用户都很有效。只需从模板UI启动管道,并设置适当的参数以指向您的发布订阅和BQ位置。一些用户更喜欢这样使用它。但这取决于您希望将数据存储在何处。

想象一个Apache Beam源转换,它从外部源发布/订阅接收数据。这将是DAG的开始。Beam的概念是拥有并优化工作。如果我们读到这里。。。我们发现,酒吧/酒吧本质上是高度平行的。Beam是否提供输入源的并行化以及DoFn工作的工人?