Kubernetes/Airflow芹菜工人任务失败,出现SigKill 9错误,但没有解释(猜测OOME?)

Kubernetes/Airflow芹菜工人任务失败,出现SigKill 9错误,但没有解释(猜测OOME?),kubernetes,airflow,Kubernetes,Airflow,我正在测试库伯内特斯的气流。目前,我正在运行一个简单的DAG,并有意尝试使其崩溃,以查看通过运行内存密集型任务会发生什么。我的进程查询一个非常大的表,我试图生成一个内存不足(OOM)错误。我知道这是因为任务失败,但我能看到的唯一日志给出了一个模糊的错误: subprocess.CalledProcessError: Command '['/tmp/venvuydlj38n/bin/python', '/tmp/venvuydlj38n/script.py', '/tmp/venvuydlj38n

我正在测试库伯内特斯的气流。目前,我正在运行一个简单的DAG,并有意尝试使其崩溃,以查看通过运行内存密集型任务会发生什么。我的进程查询一个非常大的表,我试图生成一个内存不足(OOM)错误。我知道这是因为任务失败,但我能看到的唯一日志给出了一个模糊的错误:

subprocess.CalledProcessError: Command '['/tmp/venvuydlj38n/bin/python', '/tmp/venvuydlj38n/script.py', '/tmp/venvuydlj38n/script.in', '/tmp/venvuydlj38n/script.out', '/tmp/venvuydlj38n/string_args.txt']' died with <Signals.SIGKILL: 9>.
subprocess.CalledProcessError:Command'['/tmp/venvuydlj38n/bin/python','/tmp/venvuydlj38n/script.py','/tmp/venvuydlj38n/script.in','/tmp/venvuydlj38n/script.out',“/tmp/venvuydlj38n/string_args.txt']”与一起死亡。
这是我唯一看到的东西。库伯内特斯也没有告诉我为什么。pod没有重新启动,我在
kubectl get events
上没有看到任何内容。我不明白库伯内特斯为什么不把吊舱赶出去。从Kubernetes的文档来看,Kubernetes应该杀死这个pod并重新安排它,但它看起来并没有发生——然而我的进程仍然会收到SigKill 9错误。在这一点上,我知道这是一个OOME,但我想找到的日志,将告诉确认。如果我得到Sigkill 9错误,我想知道其他一些原因


其他一些信息:我将芹菜工人的资源限制设置为2GB。

要检查豆荚是否被OOM杀死,您可以在资源上运行
kubectl descripe

$ kubectl describe <pod_name>

...
   State:          Running
      Started:      Thu, 10 Oct 2019 11:14:13 +0200
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Thu, 10 Oct 2019 11:04:03 +0200
      Finished:     Thu, 10 Oct 2019 11:14:11 +0200
...
$kubectl描述
...
状态:正在运行
开始时间:2019年10月10日星期四11:14:13+0200
最后状态:终止
原因:OOMKilled
出境代码:137
开始时间:2019年10月10日星期四11:04:03+0200
完成时间:2019年10月10日星期四11:14:11+0200
...

要检查pod是否被OOM杀死,您可以在资源上运行
kubectl descripe

$ kubectl describe <pod_name>

...
   State:          Running
      Started:      Thu, 10 Oct 2019 11:14:13 +0200
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Thu, 10 Oct 2019 11:04:03 +0200
      Finished:     Thu, 10 Oct 2019 11:14:11 +0200
...
$kubectl描述
...
状态:正在运行
开始时间:2019年10月10日星期四11:14:13+0200
最后状态:终止
原因:OOMKilled
出境代码:137
开始时间:2019年10月10日星期四11:04:03+0200
完成时间:2019年10月10日星期四11:14:11+0200
...

任何OOMKills都注册为kubernetes
事件,并且也显示在
状态中。ContainerStatus[0]。lastState.terminated.reason
POD字段您对此问题有任何更新吗?@EduardMukans抱歉,没有更新!有一个
killed\u task\u cleanup\u time
配置参数。试着增加它的价值。我试过了,看起来好多了。该参数可通过env var
气流\uuuuuu堆芯\uuuuuuu已杀死\uu任务\uu清理\uu时间设置
。更多信息:任何OOMKills都注册为kubernetes
事件
,并且也显示在
状态中。containerstatus[0]。lastState.terminated。pod的原因
字段您对此问题有任何更新吗?@EduardMukans抱歉,没有更新!有一个
killed\u task\u cleanup\u time
配置参数。试着增加它的价值。我试过了,看起来好多了。该参数可通过env var
气流\uuuuuu堆芯\uuuuuuu已杀死\uu任务\uu清理\uu时间设置
。更多信息: