Mapreduce 如何使数据流apache beam作业更快
我有一个apache beam工作,大约需要6个多小时才能完成。我们接收大约2.7Tb的地面军事系统数据以及其他数据源,如Bigtable/Bq/etc,然后执行CoGroupbyKey.create() GCS数据以原始字符串的形式出现,如Mapreduce 如何使数据流apache beam作业更快,mapreduce,google-cloud-dataflow,apache-beam,Mapreduce,Google Cloud Dataflow,Apache Beam,我有一个apache beam工作,大约需要6个多小时才能完成。我们接收大约2.7Tb的地面军事系统数据以及其他数据源,如Bigtable/Bq/etc,然后执行CoGroupbyKey.create() GCS数据以原始字符串的形式出现,如userId、hashedPhoneNumber,例如: 525135a7-cb59-46ec-8d1d-0f12df02f486, 3070816492067005070 当从地面军事系统获取数据并使用GroupbyKey创建数据时,我有多个DOFN u
userId、hashedPhoneNumber
,例如:
525135a7-cb59-46ec-8d1d-0f12df02f486, 3070816492067005070
当从地面军事系统获取数据并使用GroupbyKey创建数据时,我有多个DOFN
uuid -> Set<hashedphoneNumber>
uuid->Set
我的问题更多的是关于如何使管道更快
请查看此答案的编码部分:
还有其他的一般技巧和窍门。
我建议你检查一下,也要加快你的流水线,你可以使用这个或被调用的特性,考虑这可能产生的费用是很重要的。流水线的成本将取决于(VCPU,内存和存储:持久磁盘)。如果Set消耗更多内存或vCPU,这可能会影响管道的最终价格。您可以验证数据流定价是如何工作的。