Google cloud dataflow 谷歌数据流-固定数量的工人

Google cloud dataflow 谷歌数据流-固定数量的工人,google-cloud-dataflow,Google Cloud Dataflow,我在Google数据流中有一个步骤,我想从外部速率受限的API中提取数据。是否有办法在固定数量的工人之间平均分配数据,以遵守费率限制?需要知道工人的数量,以便将费率限制除以该数量 这个问题的答案取决于管道是通过批处理运行还是流式运行: 批处理:除了将numWorkers和maxNumWorkers设置为所需的值外,没有直接的控制。但是,这将影响整个管道,而不仅仅是您希望限制速率的阶段 流:API允许您通过generateInitialSplits调用精确指定所需的并行输入拆分数量。然后,每个拆分

我在Google数据流中有一个步骤,我想从外部速率受限的API中提取数据。是否有办法在固定数量的工人之间平均分配数据,以遵守费率限制?需要知道工人的数量,以便将费率限制除以该数量

这个问题的答案取决于管道是通过批处理运行还是流式运行:

批处理:除了将numWorkers和maxNumWorkers设置为所需的值外,没有直接的控制。但是,这将影响整个管道,而不仅仅是您希望限制速率的阶段


流:API允许您通过generateInitialSplits调用精确指定所需的并行输入拆分数量。然后,每个拆分都可以遵守自己的本地速率限制。

在我的管道中,API调用是第一步,可能也是最慢的,因此批处理方法可能会在不产生太多问题的情况下工作。我会试试看,看看效果如何。