Google cloud dataflow 数据流工作人员没有加速_Google Cloud Dataflow_Apache Beam_Dataflow

Google cloud dataflow 数据流工作人员没有加速

google-cloud-dataflow

Google cloud dataflow 数据流工作人员没有加速,google-cloud-dataflow,apache-beam,dataflow,Google Cloud Dataflow,Apache Beam,Dataflow,我有一个云数据流管道，如下所示：从云数据库读取进行一些转换并编写CloudSql和GCS 最初没有设置任何最大工作人员数和工作人员数，但处理大型数据集需要很长时间，然后我指定一些maxNumWorkers为60，numWorkers为6，这很好，但在处理过程中丢失了大量数据我们也试过这个 --自动缩放算法=基于吞吐量的算法 --最大工人数=5 静态作业从一个工人开始，不会自动缩放但是，看起来Dataflow worker并没有自动启动并平衡负载。我建议您启用该功能，因为与Dataflow

我有一个云数据流管道，如下所示：

从云数据库读取

进行一些转换并编写CloudSql和GCS

最初没有设置任何最大工作人员数和工作人员数，但处理大型数据集需要很长时间，然后我指定一些maxNumWorkers为60，numWorkers为6，这很好，但在处理过程中丢失了大量数据

我们也试过这个

--自动缩放算法=基于吞吐量的算法 --最大工人数=5

静态作业从一个工人开始，不会自动缩放

但是，看起来Dataflow worker并没有自动启动并平衡负载。

我建议您启用该功能，因为与Dataflow worker处理和自动缩放的默认体系结构相比，它基于管道的CPU利用率提供了更具响应性的自动缩放性能

有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击

+1

，使数据流工程团队更容易看到它

此外，您可以检查相关资源是否存在配额问题。对于每个作业，数据流都会创建一个实例组。工作虚拟机通过实例组启动，每个工作虚拟机占用资源。所有这些资源（例如实例组、IP地址、CPU等）都可以通过配额进行限制。遵循规则。我的发现与数据流工程师的答案相似

我希望您发现上述信息有用。

我建议您启用该功能，因为与数据流辅助处理和自动缩放的默认体系结构相比，它基于管道的CPU利用率提供了更快速的自动缩放性能

有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击

+1

，使数据流工程团队更容易看到它

我希望你觉得以上信息有用