Google cloud platform 云生成器(气流)作业卡住

Google cloud platform 云生成器(气流)作业卡住,google-cloud-platform,airflow,google-cloud-composer,Google Cloud Platform,Airflow,Google Cloud Composer,我的Cloud ComposermanagedAirflow由于取消了一个耗时太长的任务实例(我们称之为任务a),因此被卡住了数小时 我已经清除了所有DAG运行和任务实例,但是有几个作业正在运行,还有一个作业处于关闭状态(我想是任务a的作业)() 此外,调度程序似乎没有运行,因为 有没有办法终止作业或重置调度程序?任何解除作曲家卡滞的想法都将受到欢迎。您可以按如下方式重新启动计划程序: 从您的云shell: 1.确定您环境的Kubernetes群集: gcloud composer enviro

我的
Cloud Composer
managed
Airflow
由于取消了一个耗时太长的任务实例(我们称之为任务a),因此被卡住了数小时

我已经清除了所有DAG运行和任务实例,但是有几个作业正在运行,还有一个作业处于关闭状态(我想是任务a的作业)()

此外,调度程序似乎没有运行,因为


有没有办法终止作业或重置调度程序?任何解除作曲家卡滞的想法都将受到欢迎。

您可以按如下方式重新启动计划程序:

从您的云shell:

1.确定您环境的Kubernetes群集:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 
gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}
2.获取凭据并连接到Kubernetes群集:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 
gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}
3.运行以下命令以重新启动计划程序:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -
详细介绍了步骤1和2。步骤3基本上用自身替换“airflow scheduler”部署,从而重新启动服务


如果重新启动计划程序没有帮助,您可能还需要重新创建Composer环境,并在每次都出现这种情况时对DAG进行故障排除

您正在运行哪个版本的Composer?众所周知,乔布斯可能会被测试版卡住。作曲家1.0.0和1.1.0不应该看到任何卡住的作业(除了在SUDAG中的任务,这是一个已知的气流错误),考虑迁移到最新的作曲家。 看起来您无意中粘贴了步骤2与步骤1相同的代码段。您只需删除
airflow scheduler
Pod,这将导致Kubernetes将其替换为新的。重新启动airflow web服务器如何?我尝试停止重新启动airflow scheduler,甚至删除Pod,但web服务器继续运行,我需要重新启动它。@Leo,您应该能够通过安装虚拟依赖项等方式强制重新部署airflow web服务器。根据您的使用情况,部署可能是一个很好的选择。@ch_mike-看起来没有针对气流调度器或气流工作者的部署—只有气流监控和气流代理。您是否有其他解决方法来重新启动计划程序?我们实际上使用的是1.1.0,设置于本周的星期一,并且还可以看到未计划/排队或未执行任何状态更改的任务。如果发生这种情况,我们的作曲家中的所有DAG都会发生这种情况。如上所述重新启动计划程序会有所帮助。您能指出子DAG中任务阻塞的错误吗?子DAG将自动标记为回填(即,气流对所有子DAG使用回填计划程序)。不幸的是,尽管出现故障,Airflow当前没有对已回填的任务重新排队(请参见此处),更多详细信息请参见此处:。