Airflow 指定每个任务的并行度?

Airflow 指定每个任务的并行度?,airflow,Airflow,我知道在cfg中我可以设置并行性,但是有没有一种方法可以针对每个任务或至少针对每个dag进行设置 dag1= dag2(单独文件)= 您可以通过web gui创建任务池,并通过指定要使用该池的特定任务来限制执行并行性 请参阅:您可以通过web gui创建任务池,并通过指定要使用该池的特定任务来限制执行并行性 请参阅:活动DAG运行的数量可以通过以下参数(存在于airflow.cfg配置文件中)进行控制,该参数适用于全局。 默认情况下,将其设置为16,将其更改为1可确保一次仅安装一个dag,其余d

我知道在cfg中我可以设置并行性,但是有没有一种方法可以针对每个任务或至少针对每个dag进行设置

dag1=

dag2(单独文件)=


您可以通过web gui创建任务池,并通过指定要使用该池的特定任务来限制执行并行性


请参阅:

您可以通过web gui创建任务池,并通过指定要使用该池的特定任务来限制执行并行性


请参阅:

活动DAG运行的数量可以通过以下参数(存在于airflow.cfg配置文件中)进行控制,该参数适用于全局。 默认情况下,将其设置为16,将其更改为1可确保一次仅安装一个dag,其余dag将排队

#每个DAG的最大活动DAG运行数

每个dag的最大活动运行次数=16


-->建议如何控制每个dag的并发性

活动dag运行的数量可以通过以下参数(位于aiffort.cfg配置文件中)进行控制,该参数适用于全局。 默认情况下,将其设置为16,将其更改为1可确保一次仅安装一个dag,其余dag将排队

#每个DAG的最大活动DAG运行数

每个dag的最大活动运行次数=16


-->建议如何控制每个dag的并发性

关于池,我能读到更多吗?我只是把一个游泳池命名为一个字符串,然后气流神奇地处理一切吗?我以前没有涉足过这个领域,所以我想确保我了解正在发生的事情。我要避免的一件事是有两个任务试图更新维度表或其他东西,并导致冲突(我使用postgres和psycopg2 COPY EXPERT加载数据)。因此,对于维度表更新,我希望每个源一次更新一个,但是对于SFTP下载和事实表加载,我可以一次有多个进程。我还可以阅读关于池的更多信息吗?我只是把一个游泳池命名为一个字符串,然后气流神奇地处理一切吗?我以前没有涉足过这个领域,所以我想确保我了解正在发生的事情。我要避免的一件事是有两个任务试图更新维度表或其他东西,并导致冲突(我使用postgres和psycopg2 COPY EXPERT加载数据)。因此,对于维度表更新,我希望每个源一次更新一个,但是对于SFTP下载和事实表加载,我可以一次有几个过程。请注意,正如回答中所述,
max\u active\u runs\u per\u dag
max\u active\u runs
是不同的
max\u active\u runs\u per\u dag
是全局配置设置,而
max\u active\u runs
dag
类的参数。换句话说,如果实例化
DAG
对象时未提供
max\u active\u runs
,则
max\u active\u runs\u per\u DAG
气流
的配置设置默认为
max\u active\u runs\u per\u DAG
max\u active\u runs
是不同的
max\u active\u runs\u per\u dag
是全局配置设置,而
max\u active\u runs
dag
类的参数。换句话说,如果在实例化
DAG
对象时未提供
max\u active\u runs
,则默认为
max\u active\u runs\u per\u DAG
气流的配置设置

task_id: 'download_sftp'
parallelism: 4 #I am fine with downloading multiple files at once


task_id: 'process_dimensions'
parallelism: 1 #I want to make sure the dimensions are processed one at a time to prevent conflicts with my 'serial' keys

task_id: 'process_facts'
parallelism: 4 #It is fine to have multiple tables processed at once since there will be no conflicts
task_id: 'bcp_query'
parallelism: 6 #I can query separate BCP commands to download data quickly since it is very small amounts of data