Google cloud dataflow 如何使用数据流并行读取pubsub源_Google Cloud Dataflow_Google Cloud Pubsub

Google cloud dataflow 如何使用数据流并行读取pubsub源

google-cloud-dataflow

Google cloud dataflow 如何使用数据流并行读取pubsub源,google-cloud-dataflow,google-cloud-pubsub,Google Cloud Dataflow,Google Cloud Pubsub,我对数据流非常陌生，我希望构建一个使用pubsub作为源的管道我曾经研究过流媒体管道，它以flink作为流媒体引擎，kafka作为源，我们可以在flink中设置并行性来读取来自kafka的消息，这样消息处理可以并行进行，而不是顺序进行我想知道在pubsub->dataflow中是否可以实现同样的功能，或者它只能按顺序读取消息。看看管道。这使用PubSub作为源，它将并行读取数据。默认情况下，多个线程将各自从pubsub读取一条消息，并将其交给下游转换进行处理请注意，pubbq管道也可以是，

我对数据流非常陌生，我希望构建一个使用pubsub作为源的管道

我曾经研究过流媒体管道，它以flink作为流媒体引擎，kafka作为源，我们可以在flink中设置并行性来读取来自kafka的消息，这样消息处理可以并行进行，而不是顺序进行

我想知道在pubsub->dataflow中是否可以实现同样的功能，或者它只能按顺序读取消息。

看看管道。这使用PubSub作为源，它将并行读取数据。默认情况下，多个线程将各自从pubsub读取一条消息，并将其交给下游转换进行处理

请注意，pubbq管道也可以是，这对许多用户都很有效。只需从模板UI启动管道，并设置适当的参数以指向您的发布订阅和BQ位置。一些用户更喜欢这样使用它。但这取决于您希望将数据存储在何处。

想象一个Apache Beam源转换，它从外部源发布/订阅接收数据。这将是DAG的开始。Beam的概念是拥有并优化工作。如果我们读到这里。。。我们发现，酒吧/酒吧本质上是高度平行的。Beam是否提供输入源的并行化以及DoFn工作的工人？