Merge 在PCollection中的元素上。如果您有一个带有单个对象的PCollection,它将不会并行执行,也不会给您带来太多好处。与其使用单个对象,不如使用PCollection等。现在有许多元素。要对齐文章,您需要运行创建PCollection的DoFn,

Merge 在PCollection中的元素上。如果您有一个带有单个对象的PCollection,它将不会并行执行,也不会给您带来太多好处。与其使用单个对象,不如使用PCollection等。现在有许多元素。要对齐文章,您需要运行创建PCollection的DoFn,,merge,google-cloud-dataflow,dataflow,Merge,Google Cloud Dataflow,Dataflow,在PCollection中的元素上。如果您有一个带有单个对象的PCollection,它将不会并行执行,也不会给您带来太多好处。与其使用单个对象,不如使用PCollection等。现在有许多元素。要对齐文章,您需要运行创建PCollection的DoFn,然后您可以运行GroupByKey或CoGroupByKey来匹配文章。由于我正处于试验阶段,我成功地将我的PCollection与具有sideInput的自定义DoFn“合并”,在这里我可以访问这两个pojo。现在我的自定义“合并”工作了。在


在PCollection中的元素上。如果您有一个带有单个对象的PCollection,它将不会并行执行,也不会给您带来太多好处。与其使用单个对象,不如使用
PCollection
等。现在有许多元素。要对齐文章,您需要运行创建
PCollection
DoFn
,然后您可以运行
GroupByKey
CoGroupByKey
来匹配文章。由于我正处于试验阶段,我成功地将我的PCollection与具有sideInput的自定义DoFn“合并”,在这里我可以访问这两个pojo。现在我的自定义“合并”工作了。在下一次迭代中,我将尝试使用文章/类别等的PCollections,其中数据流的并行化可以发挥神奇的作用。数据流的主要因素是对谷歌数据存储的快速“读写”。非常感谢您的输入@Ben Chambers!当我进行下一次迭代时,也许我会回到那个线程并更新它
PCollection<String> pc1 = ...;
PCollection<String> pc2 = ...;
PCollection<String> pc3 = ...;
PCollectionList<String> pcs = PCollectionList.of(pc1).and(pc2).and(pc3);
PCollection<String> merged = pcs.apply(Flatten.<String>pCollections());