如何在Airflow中实现轮询?

如何在Airflow中实现轮询?,airflow,apache-airflow,Airflow,Apache Airflow,我想使用Airflow实现定期轮询外部系统(ftp服务器等)的数据流,检查符合特定条件的新文件,然后为这些文件运行一系列任务。现在,我是气流的新手,读到传感器是这种情况下使用的东西,我实际上写了一个传感器,当我运行“气流测试”时,它工作正常。但是对于传感器的poke_间隔和DAG调度之间的关系,我有点困惑。我应该如何为我的用例定义这些设置?或者我应该使用其他方法?我只想在这些文件可用时运行任务,而不是在一段时间内没有新文件可用时让仪表板充满故障。您的理解是正确的,当您想要轮询时,使用传感器是一种

我想使用Airflow实现定期轮询外部系统(ftp服务器等)的数据流,检查符合特定条件的新文件,然后为这些文件运行一系列任务。现在,我是气流的新手,读到传感器是这种情况下使用的东西,我实际上写了一个传感器,当我运行“气流测试”时,它工作正常。但是对于传感器的poke_间隔和DAG调度之间的关系,我有点困惑。我应该如何为我的用例定义这些设置?或者我应该使用其他方法?我只想在这些文件可用时运行任务,而不是在一段时间内没有新文件可用时让仪表板充满故障。

您的理解是正确的,当您想要轮询时,使用传感器是一种方法,无论是使用现有传感器还是实现自己的传感器

但是,它们始终是DAG的一部分,并且不会在DAG边界之外执行。DAG的执行取决于
开始日期
计划间隔
,但是,您可以根据外部服务器的状态,利用此传感器和传感器来实现某种DAG:一种可能的方法是使用传感器启动整个DAG,该传感器检查是否出现某个条件,如果不满足该条件,则决定跳过整个DAG(通过将传感器的
soft\u fail
参数设置为
True
,您可以确保传感器将下游任务标记为
跳过的
,而不是
失败的
)。通过使用最频繁的调度选项(
***
),您可以有一分钟的轮询间隔。如果您确实需要最短的轮询时间,可以调整传感器的
poke_间隔
超时
参数


记住,执行时间可能不是由气流本身保证的,所以对于非常短的轮询时间,你可能想研究替代方案(或者至少考虑和我刚刚共享的方法不同)。.

您的理解是正确的,当您想通过使用现有传感器或实现您自己的传感器进行投票时,使用传感器是一种可行的方法

然而,它们始终是DAG的一部分,并且不会在其边界之外执行。DAG的执行取决于
开始日期
计划间隔
,但您可以利用此和传感器根据外部服务器的状态来实现某种DAG:一种可能的方法是启动整个DAG带有传感器的DAG,该传感器检查条件是否发生,并在条件不满足时决定跳过整个DAG(您可以通过将其
软故障
参数设置为
,确保传感器将下游任务标记为
跳过
,而不是
失败
)。通过使用最频繁的计划选项(
***
),您可以有一分钟的轮询间隔。如果您确实需要最短的轮询时间,您可以调整传感器的
戳_间隔
超时
参数


记住,执行时间可能不是由气流本身保证的,所以对于非常短的轮询时间,你可能想研究替代方案(或者至少考虑和我刚刚共享的方法不同)。.

使用soft_fail=True似乎可以让我的DAG仪表盘不出现不必要的错误,所以我接受这个答案。对于调度,我只使用DAG调度,然后在几次快速戳后超时传感器。我的轮询调度通常是每小时或每天一次,所以我想应该这样做。或者有什么问题吗有吗?没有,每小时的日程安排绝对不错。使用soft_fail=True似乎可以让我的DAG仪表盘不出现不必要的错误,所以我接受这个答案。对于日程安排,我将只使用DAG日程安排,然后在快速戳几下后超时传感器。我的轮询日程安排通常是每小时或每天一次哦,我想应该是这样。或者有什么问题吗?不,每小时的时间表绝对好得多。