Google cloud dataflow 数据流工作人员没有加速

Google cloud dataflow 数据流工作人员没有加速,google-cloud-dataflow,apache-beam,dataflow,Google Cloud Dataflow,Apache Beam,Dataflow,我有一个云数据流管道,如下所示: 从云数据库读取 进行一些转换并编写CloudSql和GCS 最初没有设置任何最大工作人员数和工作人员数,但处理大型数据集需要很长时间,然后我指定一些maxNumWorkers为60,numWorkers为6,这很好,但在处理过程中丢失了大量数据 我们也试过这个 --自动缩放算法=基于吞吐量的算法 --最大工人数=5 静态作业从一个工人开始,不会自动缩放 但是,看起来Dataflow worker并没有自动启动并平衡负载。我建议您启用该功能,因为与Dataflow

我有一个云数据流管道,如下所示:

  • 从云数据库读取
  • 进行一些转换并编写CloudSql和GCS
  • 最初没有设置任何最大工作人员数和工作人员数,但处理大型数据集需要很长时间,然后我指定一些maxNumWorkers为60,numWorkers为6,这很好,但在处理过程中丢失了大量数据

    我们也试过这个

    --自动缩放算法=基于吞吐量的算法 --最大工人数=5

    静态作业从一个工人开始,不会自动缩放


    但是,看起来Dataflow worker并没有自动启动并平衡负载。

    我建议您启用该功能,因为与Dataflow worker处理和自动缩放的默认体系结构相比,它基于管道的CPU利用率提供了更具响应性的自动缩放性能

    有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击
    +1
    ,使数据流工程团队更容易看到它

    此外,您可以检查相关资源是否存在配额问题。对于每个作业,数据流都会创建一个实例组。工作虚拟机通过实例组启动,每个工作虚拟机占用资源。所有这些资源(例如实例组、IP地址、CPU等)都可以通过配额进行限制。遵循规则。我的发现与数据流工程师的答案相似


    我希望您发现上述信息有用。

    我建议您启用该功能,因为与数据流辅助处理和自动缩放的默认体系结构相比,它基于管道的CPU利用率提供了更快速的自动缩放性能

    有一个问题与云数据流的吞吐量和输入行为有关。您可以跟踪改进情况。请单击
    +1
    ,使数据流工程团队更容易看到它

    此外,您可以检查相关资源是否存在配额问题。对于每个作业,数据流都会创建一个实例组。工作虚拟机通过实例组启动,每个工作虚拟机占用资源。所有这些资源(例如实例组、IP地址、CPU等)都可以通过配额进行限制。遵循规则。我的发现与数据流工程师的答案相似

    我希望你觉得以上信息有用