Python 如何在ML引擎培训工作中跟踪SIGSEGV错误的原因?

Python 如何在ML引擎培训工作中跟踪SIGSEGV错误的原因?,python,tensorflow,segmentation-fault,tensorflow-estimator,Python,Tensorflow,Segmentation Fault,Tensorflow Estimator,我正在ML引擎上培训一个自定义tensorflow估计器,遇到以下错误: The replica master 0 exited with a non-zero status of 11(SIGSEGV) 唯一的其他错误日志为: Command '['python3', '-m', 'train_model.train', ... ']' returned non-zero exit status -11 不再有回溯,所以“无效内存引用或分段错误”是我必须继续的 此SIGSEGV错误并不总是

我正在ML引擎上培训一个自定义tensorflow估计器,遇到以下错误:

The replica master 0 exited with a non-zero status of 11(SIGSEGV)
唯一的其他错误日志为:

Command '['python3', '-m', 'train_model.train', ... ']' returned non-zero exit status -11
不再有回溯,所以“无效内存引用或分段错误”是我必须继续的

此SIGSEGV错误并不总是发生。一些培训作业运行时没有问题,其他作业在4小时后抛出此错误,其他作业在15分钟后抛出此错误

我已经尝试了估计器训练代码的不同部分来尝试用我的方法找出原因,但是没有成功

我认为
11
代码可能对应于谷歌API中的
OutOfSequence
OutOfRange
错误,当在估计器
EvalSpec
中使用自定义度量时,但我不认为这是导致错误的原因,因为我使用了
tf.metric

我使用的是
BASIC
scale层,从CPU利用率来看,它从未超过80%,内存利用率图表显示约25%

我正在缓存tensorflow数据集,但在不缓存数据集时也会收到此错误。运行
train\u和_evaluate
方法以及
train
方法时会发生错误


关于我如何在培训工作中追查这次车祸的原因,有什么建议吗?或者这次事故的一些常见原因是什么?解决方案只是使用更大的内存机器吗?

您解决了这个问题吗?没有。当使用较大的计算实例时,错误发生的频率较低,但仍然会发生。您能提供有关数据集和模型的更多信息吗?我知道这已经有几年了,但我遇到了相同的错误,我想知道您是否能够解决这个问题。我现在还没有解决这个问题。但我从未找到问题的原因