Google cloud dataflow 分组数据中的优化_Google Cloud Dataflow_Apache Beam

Google cloud dataflow 分组数据中的优化

google-cloud-dataflow

Google cloud dataflow 分组数据中的优化,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我正在尝试使用ApacheBeam对大量密钥进行分组。我不能使用组合器，因为分组中使用的数据和逻辑的性质。我正在使用数据流洗牌器。可以使用哪些其他优化？我指的是在处理大型数据分组时需要考虑的一般因素。一般来说，同一个键的值太多会导致性能不佳，称为热键处理此问题的方法之一是将数据拆分为多个键，然后将结果合并为较少的值，然后再次将这些结果合并为原始键如果您在数据流中使用正确的选项，则会自动支持此想法。本博客建议使用Combine.PerKey.withHotKeyFanout或Combine.

我正在尝试使用ApacheBeam对大量密钥进行分组。我不能使用组合器，因为分组中使用的数据和逻辑的性质。我正在使用数据流洗牌器。可以使用哪些其他优化？

我指的是在处理大型数据分组时需要考虑的一般因素。

一般来说，同一个键的值太多会导致性能不佳，称为热键

处理此问题的方法之一是将数据拆分为多个键，然后将结果合并为较少的值，然后再次将这些结果合并为原始键

如果您在数据流中使用正确的选项，则会自动支持此想法。本博客建议使用Combine.PerKey.withHotKeyFanout或Combine.Globally.withFanout。它还包含一些你可能会觉得有用的其他建议

我希望博客文章中的建议能帮助你找到一个有效的解决方案：