Google cloud dataflow 分组数据中的优化

Google cloud dataflow 分组数据中的优化,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我正在尝试使用ApacheBeam对大量密钥进行分组。我不能使用组合器,因为分组中使用的数据和逻辑的性质。我正在使用数据流洗牌器。可以使用哪些其他优化? 我指的是在处理大型数据分组时需要考虑的一般因素。一般来说,同一个键的值太多会导致性能不佳,称为热键 处理此问题的方法之一是将数据拆分为多个键,然后将结果合并为较少的值,然后再次将这些结果合并为原始键 如果您在数据流中使用正确的选项,则会自动支持此想法。本博客建议使用Combine.PerKey.withHotKeyFanout或Combine.

我正在尝试使用ApacheBeam对大量密钥进行分组。我不能使用组合器,因为分组中使用的数据和逻辑的性质。我正在使用数据流洗牌器。可以使用哪些其他优化?
我指的是在处理大型数据分组时需要考虑的一般因素。

一般来说,同一个键的值太多会导致性能不佳,称为热键

处理此问题的方法之一是将数据拆分为多个键,然后将结果合并为较少的值,然后再次将这些结果合并为原始键

如果您在数据流中使用正确的选项,则会自动支持此想法。本博客建议使用Combine.PerKey.withHotKeyFanout或Combine.Globally.withFanout。它还包含一些你可能会觉得有用的其他建议

我希望博客文章中的建议能帮助你找到一个有效的解决方案: