Airflow 什么是气流环境下的任务并行性?

Airflow 什么是气流环境下的任务并行性?,airflow,Airflow,任务并行通常是指多个任务在相同或不同的数据集上运行。但是,当我在afflow.cfg文件中更改parallelism参数时,在气流的上下文中是什么呢 例如,假设我想对一批数据运行数据处理器。是否将并行度设置为32,将数据拆分为32个子批次,并在这些子批次上运行相同的任务 或者,如果最初有32批数据,而不是1批,我可以在所有32批上运行数据处理器(即32个任务同时运行)。设置不会在DAG中“分割数据”。 从: 并行性:此变量控制要执行的任务实例数 在整个气流组中同时运行 如果您想并行执行一个任务,

任务并行通常是指多个任务在相同或不同的数据集上运行。但是,当我在afflow.cfg文件中更改parallelism参数时,在气流的上下文中是什么呢

例如,假设我想对一批数据运行数据处理器。是否将并行度设置为32,将数据拆分为32个子批次,并在这些子批次上运行相同的任务

或者,如果最初有32批数据,而不是1批,我可以在所有32批上运行数据处理器(即32个任务同时运行)。

设置不会在DAG中“分割数据”。 从:

并行性:此变量控制要执行的任务实例数 在整个气流组中同时运行

如果您想并行执行一个任务,您需要进一步中断它,这意味着创建更多的任务,但每个任务所做的工作更少。这对于一些ETL来说很方便

例如:

假设您想将昨天的记录从MySQL复制到S3


您可以使用一个
MySQLToS3Operator
在一个查询中读取昨天的数据。但是,您也可以将其拆分为2个
MySQLToS3Operator
读取12小时数据或24个操作员读取每小时数据。这取决于您和您使用的服务的限制。

您可以查看以下问题: