Airflow 运行太多任务时气流运行状况检查失败?

Airflow 运行太多任务时气流运行状况检查失败?,airflow,Airflow,我使用LocalExecutor在Marathon上运行了一个单容器气流设置。我正在运行一个运行状况检查,该检查ping Airflow Web服务器上的/health端点。它目前分配了5个CPU,Web服务器运行的是4个Gunicorn。昨晚我有大约25个任务同时运行。这导致运行状况检查失败,但没有有用的错误消息。容器刚刚收到一个SIGTERM。我想知道是否有人能提出导致健康检查失败的罪魁祸首?是CPU争用吗?难道我没有创建足够的gunicorn员工,以便他们能够响应健康检查请求吗?我有一些想

我使用LocalExecutor在Marathon上运行了一个单容器气流设置。我正在运行一个运行状况检查,该检查ping Airflow Web服务器上的
/health
端点。它目前分配了5个CPU,Web服务器运行的是4个Gunicorn。昨晚我有大约25个任务同时运行。这导致运行状况检查失败,但没有有用的错误消息。容器刚刚收到一个SIGTERM。我想知道是否有人能提出导致健康检查失败的罪魁祸首?是CPU争用吗?难道我没有创建足够的gunicorn员工,以便他们能够响应健康检查请求吗?我有一些想法,但我不确定原因

以下是Marathon中的健康检查配置:

[
  {
    "gracePeriodSeconds": 300,
    "intervalSeconds": 60,
    "timeoutSeconds": 20,
    "maxConsecutiveFailures": 3,
    "portIndex": 0,
    "path": "/admin/",
    "protocol": "HTTP",
    "ignoreHttp1xx": false
  }
]

是的,我以前见过类似的问题,是否有可能从LocalExecutor和单节点服务迁移出去


如果不是,这是一个垂直扩展实例的例子,以便能够在任务//调度程序的大量计算需求期间处理web请求。

健康检查的配置是什么:间隔、重试、超时等?@joebeeson刚刚将其添加到POST中,我可能会在某个时候进行迁移,但我希望在短期内能够垂直扩展。但我想弄清楚我到底需要什么来垂直缩放。我想我正在试图弄清楚我是否需要增加#CPU、#Gunicorn workers,或者两者都增加?CPU/内存很可能,因为Gunicorn只链接到Web服务器,所以只有调度程序和执行程序进程阻塞了Gunicorn和Web服务器的资源