Tensorflow pod一被job创造出来就被杀了
作业创建的Pod被终止,消息为:Tensorflow pod一被job创造出来就被杀了,tensorflow,kubernetes,Tensorflow,Kubernetes,作业创建的Pod被终止,消息为: Normal DeadlineExceeded Job was active longer than specified deadline 这是一个Tensorflow的吊舱跑步训练过程。奇怪的是,这个pod刚刚创建,在kubectl日志输出中没有任何错误。如中所述,您可以看到死线超出意味着您的流程运行的时间比规范中允许的最长时间长。是的,我已经阅读了该手册。我认为这意味着作业控制器重新创建一个新的pod,并在第一个pod出现故障后开始计时。当超时到指定的截止
Normal DeadlineExceeded Job was active longer than specified deadline
这是一个Tensorflow的吊舱跑步训练过程。奇怪的是,这个pod刚刚创建,在
kubectl日志
输出中没有任何错误。如中所述,您可以看到死线超出
意味着您的流程运行的时间比规范中允许的最长时间长。是的,我已经阅读了该手册。我认为这意味着作业控制器重新创建一个新的pod,并在第一个pod出现故障后开始计时。当超时到指定的截止日期时,作业控制器将终止并删除现有POD。在这种情况下,当运行kubectl descripe job
时,我们可以看到0成功/0运行/1失败
。但是,事件输出显示,作业控制器在pod出现故障时立即终止并删除了pod。这令人困惑