Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/blackberry/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Airflow 气流DAG正在为所有重试运行_Airflow_Airflow Scheduler_Airflow Operator - Fatal编程技术网

Airflow 气流DAG正在为所有重试运行

Airflow 气流DAG正在为所有重试运行,airflow,airflow-scheduler,airflow-operator,Airflow,Airflow Scheduler,Airflow Operator,我有一个DAG运行了几个月,从上个星期开始,它的行为异常。我正在运行一个bash操作符,它正在执行一个shell脚本,在shell脚本中我们有一个配置单元查询。 重试次数设置为4,如下所示 默认参数={ “所有者”:“气流”, “依赖于过去”:False, '电子邮件':['airflow@example.com'], “失败时发送电子邮件”:False, “重试时发送电子邮件”:False, 重试次数:4次, “重试延迟”:时间增量(分钟=5) } 我可以在日志中看到,它正在触发配置单元查询,

我有一个DAG运行了几个月,从上个星期开始,它的行为异常。我正在运行一个bash操作符,它正在执行一个shell脚本,在shell脚本中我们有一个配置单元查询。 重试次数设置为4,如下所示

默认参数={ “所有者”:“气流”, “依赖于过去”:False, '电子邮件':['airflow@example.com'], “失败时发送电子邮件”:False, “重试时发送电子邮件”:False, 重试次数:4次, “重试延迟”:时间增量(分钟=5) }

我可以在日志中看到,它正在触发配置单元查询,并在一段时间后(大约5到6分钟)停止心跳,然后进行重试。 纱线显示查询尚未完成,但气流触发了下一次运行。现在,在Thread中,为同一任务运行了2个查询(第一次运行一个,第二次重试一个)。同样,此dag为同一任务触发5个查询(因为重试为4个),并在最后一次运行中显示失败状态。 有趣的是,同一个dag在很长一段时间内运行良好。此外,这也是生产中与蜂巢相关的所有DAG的问题。 今天我升级到了airflow v 1.10.9的最新版本。 在这种情况下,我使用LocalExecuter


是否有人遇到过类似的问题?

无论是否连接到后端数据库,Airflow UI都不会自行启动重试。看起来您的任务执行者正在变成僵尸,在这种情况下,调度程序的僵尸检测将启动并调用任务实例(TI)handle_failure方法。简而言之,您可以在dag中重写该方法并添加一些日志记录以查看发生的情况,事实上,您应该能够使用Hadoop RM并检查作业的状态,并做出相应的决定,包括取消重试


例如,请参阅代码,我编写该代码只是为了处理僵尸故障

无论是否连接到后端数据库,Airflow UI都不会自行启动重试。看起来您的任务执行者正在变成僵尸,在这种情况下,调度程序的僵尸检测将启动并调用任务实例(TI)handle_failure方法。简而言之,您可以在dag中重写该方法并添加一些日志记录以查看发生的情况,事实上,您应该能够使用Hadoop RM并检查作业的状态,并做出相应的决定,包括取消重试


例如,请参阅代码,我编写该代码只是为了处理僵尸故障

经过更多的调查,我发现我的任务在运行时变得僵硬,气流没有心跳。我正在由任务执行器运行气流DAG。我已经在airflow.cfg中做了一些更改,并将zombie_任务_超时从默认值更改为15分钟。请检查airflow日志、计划程序、工作人员和任务所有日志。不完全是针对同一问题,但有时Airflow UI会失去后端引用,即使后台作业正在运行,它也会重新尝试作业,bcz UI数据库没有以正确的状态更新。经过进一步调查,我发现我的任务在运行时变得僵硬,Airflow没有心跳。我正在由任务执行器运行气流DAG。我已经在airflow.cfg中做了一些更改,并将zombie_任务_超时从默认值更改为15分钟。请检查airflow日志、计划程序、工作人员和任务所有日志。不完全是针对同一问题,但有时Airflow UI会失去后端引用,并且即使后台作业正在运行,它也会重新尝试作业,bcz UI数据库未以正确的状态更新。