Python 基于GPU的TensorFlow断层分割

Python 基于GPU的TensorFlow断层分割,python,gpu,tensorflow,Python,Gpu,Tensorflow,我一直在培训CNN在公司服务器上使用TensorFlow Python API,该服务器最初正在运行。第二天,它开始抛出这个错误:分段错误。为了隔离这一点,我只是尝试创建一个TensorFlow会话,但它抛出了相同的错误:分段错误 我观察到的另一件事是,TensorFlow通常确定主机中可用的GPU数量,但当问题发生时,它仅显示一个GPU可用,尽管事实上有超过4个GPU处于静止状态。我的印象是,有人限制了它的限度或施加了某种限制。在我和他们交谈之前,我想首先知道,至少对我自己来说,是什么导致了分

我一直在培训CNN在公司服务器上使用TensorFlow Python API,该服务器最初正在运行。第二天,它开始抛出这个错误:分段错误。为了隔离这一点,我只是尝试创建一个TensorFlow会话,但它抛出了相同的错误:分段错误

我观察到的另一件事是,TensorFlow通常确定主机中可用的GPU数量,但当问题发生时,它仅显示一个GPU可用,尽管事实上有超过4个GPU处于静止状态。我的印象是,有人限制了它的限度或施加了某种限制。在我和他们交谈之前,我想首先知道,至少对我自己来说,是什么导致了分割错误


请分享你的意见。谢谢

我认为这与您的CUDA和CuDNN有关。您是从源代码还是从whl文件安装的?能否使用CUDA toolkit 7.5和CuDNN v4重新安装/重新编译?要调试分段故障,获取堆栈跟踪(即在gdb下运行程序)非常有用@Sung Kim:我不知道管理层是如何将它们安装在服务器上的,因为它们已经存在,而且我无权重新安装或更改它们的系统库。谢谢你的时间。@YaroslavBulatov:谢谢你的评论。我不确定你所说的程序是什么意思。然而,我想强调的是,创建TensorFlow会话的尝试首先失败了,所以我想知道如何调试它。不管怎样,既然你提到了gdb,我现在就检查一下。同时,你能告诉我在GPU中打开独占模式是否会导致这个分段错误吗?对不起,我没有看到很多分段错误,所以,不知道。但一般来说,任何一种偏离公共配置的行为都有可能引发新的bug。特别是,如果GPU在nvidia smi中可见,我认为TensorFlow将尝试使用itI。我认为这与您的CUDA和CuDNN有关。您是从源代码还是从whl文件安装的?能否使用CUDA toolkit 7.5和CuDNN v4重新安装/重新编译?要调试分段故障,获取堆栈跟踪(即在gdb下运行程序)非常有用@Sung Kim:我不知道管理层是如何将它们安装在服务器上的,因为它们已经存在,而且我无权重新安装或更改它们的系统库。谢谢你的时间。@YaroslavBulatov:谢谢你的评论。我不确定你所说的程序是什么意思。然而,我想强调的是,创建TensorFlow会话的尝试首先失败了,所以我想知道如何调试它。不管怎样,既然你提到了gdb,我现在就检查一下。同时,你能告诉我在GPU中打开独占模式是否会导致这个分段错误吗?对不起,我没有看到很多分段错误,所以,不知道。但一般来说,任何一种偏离公共配置的行为都有可能引发新的bug。特别是,如果GPU在nvidia smi中可见,我认为TensorFlow将尝试使用它