Airflow 气流1.10.15。毫无理由地杀死僵尸任务

Airflow 气流1.10.15。毫无理由地杀死僵尸任务,airflow,google-cloud-composer,Airflow,Google Cloud Composer,我们现在使用CloudComposer(又名气流)已经有一段时间了。最近我们更新了最新版本(composer-1.16.5-airflow-1.10.15)。自从我们遇到一些所谓的僵尸任务的问题以来 如果认为某个任务已死亡,则会出现僵尸任务,因此会将其杀死。任务被视为死亡的决定围绕着任务的心跳、一些僵尸阈值,当然还有工作人员的重新资源 通常在任务启动后250秒左右,它会被气流杀死,标记为僵尸任务。但并不是所有任务都会发生这种情况,只是其中一些任务会发生这种情况 我们的任务通常会触发一些Datap

我们现在使用CloudComposer(又名气流)已经有一段时间了。最近我们更新了最新版本(composer-1.16.5-airflow-1.10.15)。自从我们遇到一些所谓的僵尸任务的问题以来

如果认为某个任务已死亡,则会出现僵尸任务,因此会将其杀死。任务被视为死亡的决定围绕着任务的心跳、一些僵尸阈值,当然还有工作人员的重新资源

通常在任务启动后250秒左右,它会被气流杀死,标记为僵尸任务。但并不是所有任务都会发生这种情况,只是其中一些任务会发生这种情况

我们的任务通常会触发一些Dataproc/Dataflow作业,因此工作人员实际上没有高工作负载。事实上,GCP告诉我,我应该降低工人的等级以节省成本,因为他们做的不多。看来这不是问题

我当时尝试的是设置这些配置:

core-store_dag_code                       = "False"
core-dagbag_import_timeout                = "180"
core-dag_file_processor_timeout           = "180"
scheduler-job_heartbeat_sec               = "5"
scheduler-scheduler_heartbeat_sec         = "5"
scheduler-scheduler_zombie_task_threshold = "600"
这些设置似乎都没有任何效果

有没有人知道这个问题,或者知道什么可以帮助你

非常感谢


Michael

这是否发生在任何特定任务/操作员身上?多久发生一次?您考虑过迁移到Airflow 2.0吗?dataproc jobs操作符和dataflow python操作符都会出现这种情况。我还没有看到bash操作符出现这个问题。。。。Airflow 2只是Google Cloud Composer环境中的一个候选版本,但它并不是在每个任务上都会出现,只是其中的一些任务。这有点随机。有时有效,有时无效。前一段时间,我试图解决同样的问题,但没有效果。如果您的任务运行时间长,您可以考虑将任务提交并等待结果重新安排到操作员和传感器(如果您还没有这样做),这不是我想听到的。此问题是否发生在气流2.0中?