Google cloud dataflow 数据流工作人员没有加速
我有一个云数据流管道,如下所示:Google cloud dataflow 数据流工作人员没有加速,google-cloud-dataflow,apache-beam,dataflow,Google Cloud Dataflow,Apache Beam,Dataflow,我有一个云数据流管道,如下所示: 从云数据库读取 进行一些转换并编写CloudSql和GCS 最初没有设置任何最大工作人员数和工作人员数,但处理大型数据集需要很长时间,然后我指定一些maxNumWorkers为60,numWorkers为6,这很好,但在处理过程中丢失了大量数据 我们也试过这个 --自动缩放算法=基于吞吐量的算法 --最大工人数=5 静态作业从一个工人开始,不会自动缩放 但是,看起来Dataflow worker并没有自动启动并平衡负载。我建议您启用该功能,因为与Dataflow
但是,看起来Dataflow worker并没有自动启动并平衡负载。我建议您启用该功能,因为与Dataflow worker处理和自动缩放的默认体系结构相比,它基于管道的CPU利用率提供了更具响应性的自动缩放性能 有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击
+1
,使数据流工程团队更容易看到它
此外,您可以检查相关资源是否存在配额问题。对于每个作业,数据流都会创建一个实例组。工作虚拟机通过实例组启动,每个工作虚拟机占用资源。所有这些资源(例如实例组、IP地址、CPU等)都可以通过配额进行限制。遵循规则。我的发现与数据流工程师的答案相似
我希望您发现上述信息有用。我建议您启用该功能,因为与数据流辅助处理和自动缩放的默认体系结构相比,它基于管道的CPU利用率提供了更快速的自动缩放性能 有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击
+1
,使数据流工程团队更容易看到它
此外,您可以检查相关资源是否存在配额问题。对于每个作业,数据流都会创建一个实例组。工作虚拟机通过实例组启动,每个工作虚拟机占用资源。所有这些资源(例如实例组、IP地址、CPU等)都可以通过配额进行限制。遵循规则。我的发现与数据流工程师的答案相似
我希望你觉得以上信息有用