Python 气流-如何在for循环的迭代之间设置任务依赖关系？_Python_Etl_Airflow

Python 气流-如何在for循环的迭代之间设置任务依赖关系？

python airflow

Python 气流-如何在for循环的迭代之间设置任务依赖关系？,python,etl,airflow,Python,Etl,Airflow,我使用气流在for循环内部运行一组任务。循环的目的是遍历数据库表名列表并执行以下操作： for table_name in list_of_tables: if table exists in database (BranchPythonOperator) do nothing (DummyOperator) else: create table (JdbcOperator) insert records into table (JdbcO

我使用气流在for循环内部运行一组任务。循环的目的是遍历数据库表名列表并执行以下操作：

for table_name in list_of_tables:
    if table exists in database (BranchPythonOperator)
        do nothing (DummyOperator)
    else:
        create table (JdbcOperator)
    insert records into table (JdbcOperator, Trigger on One Success)

在Web UI上，显示如下所示：

当前，Airflow从上到下再从左到右执行此图像中的任务，如：

tbl\u exists\u fake\u table\u one

-->

tbl\u exists\u fake\u table\u two

-->

tbl\u create\u fake\u table\u one

，等等

但是，

fake\u table\u two

的

insert

语句取决于正在更新的

fake\u table\u one

，该依赖关系当前未被捕获。（从技术上讲，这种依赖性是通过

表名列表的顺序捕获的，但我相信在更复杂的情况下，这很容易出错）
我希望运行与fake\u table\u one
相关的所有任务，然后运行与fake\u table\u two
相关的所有任务。我如何在气流中实现这一点
完整代码如下：
for tbl_name in list_of_table_names:

    # Check if table exists by querying information tables
    def has_table(tbl_name=tbl_name):
        p = JdbcHook('conn_id')
        sql =""" select count(*) from system.tables where name = '{}' """.format(tbl_name.upper())
        count = p.get_records(sql)[0][0] #unpack the list/tuple

        # If the query didn't return rows, branch to Create Table Task
        # otherwise, branch to Dummy Operator (Airflow requires that both branches have a task)
        if count == 0:
            return 'tbl_create_{}'.format(tbl_name)
        else:
            return 'dummy_{}'.format(tbl_name) 

    # run has_table python function
    exists = BranchPythonOperator(
        task_id='tbl_exists_{}'.format(tbl_name),
        python_callable=has_table,
        depends_on_past=False,
        dag=dag
    )

    # Dummy Operator
    dummy = DummyOperator(task_id='dummy_{}'.format(tbl_name),dag=dag,depends_on_past=False)

    # Run create table SQL script
    create = JdbcOperator(
        task_id='tbl_create_{}'.format(tbl_name),
        jdbc_conn_id='conn_id',
        sql = sql_parse(script_path, 'sql/sql_create/{}.sql'.format(tbl_name)), 
        depends_on_past=False,
        dag = dag
    )

    # Run insert or truncate/replace SQL script
    upsert = JdbcOperator(
        task_id='tbl_upsert_{}'.format(tbl_name),
        jdbc_conn_id='conn_id',
        sql = sql_parse(script_path, 'sql/sql_upsert/{}.sql'.format(tbl_name)),
        trigger_rule=TriggerRule.ONE_SUCCESS,
        dag = dag
    )

    # Set dependencies
    exists >> create >> upsert 
    exists >> dummy >> upsert

存储对在每个循环末尾添加的最后一个任务的引用。
然后，在每个循环的开头，检查ref是否存在。
如果ref存在，则将其设置为上游
大概是这样的：
last_task = None

for tbl_name in list_of_table_names:


    # run has_table python function
    exists = BranchPythonOperator(
        task_id='tbl_exists_{}'.format(tbl_name),
        python_callable=has_table,
        depends_on_past=False,
        dag=dag
    )

    if last_task:
        last_task >> exists


    ...


    # Run insert or truncate/replace SQL script
    upsert = JdbcOperator(
        task_id='tbl_upsert_{}'.format(tbl_name),
        jdbc_conn_id='conn_id',
        sql = sql_parse(script_path, 'sql/sql_upsert/{}.sql'.format(tbl_name)),
        trigger_rule=TriggerRule.ONE_SUCCESS,
        dag = dag
    )

    last_task = upsert

    ...