Google cloud dataflow 数据流并行行为

Google cloud dataflow 数据流并行行为,google-cloud-dataflow,Google Cloud Dataflow,谷歌云数据流是否足够智能,能够自动利用多核处理器 也就是说,如果我有一个只使用单核的ParDo,并且我只使用一个worker,但我已经通过了--workerMachineType=n1-standard-2,那么数据流会运行两个并行的ParDo实例吗?是的,数据流将在同一个worker上运行多线程和多个ParDo实例 但是,请记住,如果使用GroupByKey,则ParDo将连续处理特定键的元素。虽然您仍然可以在worker上实现并行性,因为您同时处理多个键。但是,如果所有数据都在一个“热键”上

谷歌云数据流是否足够智能,能够自动利用多核处理器


也就是说,如果我有一个只使用单核的ParDo,并且我只使用一个worker,但我已经通过了--workerMachineType=n1-standard-2,那么数据流会运行两个并行的ParDo实例吗?

是的,数据流将在同一个worker上运行多线程和多个ParDo实例

但是,请记住,如果使用GroupByKey,则ParDo将连续处理特定键的元素。虽然您仍然可以在worker上实现并行性,因为您同时处理多个键。但是,如果所有数据都在一个“热键”上,则可能无法实现良好的并行性