Java 通过流化Pubsub数据丰富固定BigQuery数据的数据流模板/模式
我有一个BigQuery维度表(变化不大)和一个来自PubSub的流式JSON数据。我要做的是查询这个维度表,并通过连接来自PubSub的传入数据来丰富数据,然后将这些连接的数据流写入另一个BigQuery表 由于我对Dataflow/Beam还不熟悉,而且这个概念对我来说还不是很清楚(或者至少我在开始编写代码时有困难),我有一些问题:Java 通过流化Pubsub数据丰富固定BigQuery数据的数据流模板/模式,java,google-bigquery,google-cloud-dataflow,apache-beam,google-cloud-pubsub,Java,Google Bigquery,Google Cloud Dataflow,Apache Beam,Google Cloud Pubsub,我有一个BigQuery维度表(变化不大)和一个来自PubSub的流式JSON数据。我要做的是查询这个维度表,并通过连接来自PubSub的传入数据来丰富数据,然后将这些连接的数据流写入另一个BigQuery表 由于我对Dataflow/Beam还不熟悉,而且这个概念对我来说还不是很清楚(或者至少我在开始编写代码时有困难),我有一些问题: 我可以使用什么样的模板或模式来实现这一点?我应该先进行BigQuery的p转换(然后是PubSub的p转换)还是先进行PubSub的p转换 我怎样才能加入?类似
ParDo.和sideinputs(PCollectionView映射)
您需要加入两个PCollection
PeriodicImpulse
和您自己的ParDo
创建周期性变化的输入。请参阅以获取示例(请注意最近添加了PeriodicImpulse
transform)ParDo
中组合数据,其中PCollection
(1)是主输入,PCollection
(2)是侧输入(类似于上面的示例)
最后,您可以使用转换将输出流式传输到BigQuery