GPU内存足够大,但tensorflow深度学习模型的内存仍然不足

GPU内存足够大,但tensorflow深度学习模型的内存仍然不足,tensorflow,gpu,Tensorflow,Gpu,我们的实验室刚刚安装了一台带有12个GPU插槽的GPU服务器。为了散热,我们每两个插槽安装6个TITAN RTX GPU TITAN RTX拥有24G内存。 这对于我们的tensorflow深度学习模型培训来说已经足够大了。 但仍然没有记忆。 主运行日志文件如下所示: 你能帮点忙吗?提前谢谢大家 nohup:忽略输入 /home/xingyg/anaconda3/lib/python3.6/site packages/h5py/__init__uuuuuu.py:36:未来警告:不推荐将iss

我们的实验室刚刚安装了一台带有12个GPU插槽的GPU服务器。为了散热,我们每两个插槽安装6个TITAN RTX GPU

TITAN RTX拥有24G内存。 这对于我们的tensorflow深度学习模型培训来说已经足够大了。 但仍然没有记忆。 主运行日志文件如下所示:

你能帮点忙吗?提前谢谢大家

nohup:忽略输入
/home/xingyg/anaconda3/lib/python3.6/site packages/h5py/__init__uuuuuu.py:36:未来警告:不推荐将issubdtype的第二个参数从'float'转换为'np.floating'。将来,它将被视为`np.float64==np.dtype(float.type`。
from.\u conv导入寄存器\u转换器作为\u寄存器\u转换器
警告:tensorflow:From/export/disk3/xyg/xinglib/function.py:14:tf_record_迭代器(来自tensorflow.python.lib.io.tf_record)已弃用,将在未来版本中删除。
更新说明:
使用即时执行和:
`tf.data.TFRecordDataset(路径)`
/export/disk3/xyg/xinglib/function.py:89:RuntimeWarning:less_equal中遇到无效值
标签=(标签物理GPU(设备:0,名称:TITAN RTX,pci
总线id:0000:04:00.0,计算能力:7.5)
警告:tensorflow:From/home/xingyg/.local/lib/python3.6/site packages/tensorflow/python/training/saver.py:1266:checkpoint_exists(来自tensorflow.python.training.checkpoint_管理)已被弃用,并将在以后删除
未来版本。
更新说明:
使用标准文件API检查具有此前缀的文件。
2019-11-24 11:40:02.350540:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1433]找到了具有以下属性的设备1:
名称:泰坦RTX大调:7小调:5记忆时钟频率(GHz):1.77
pciBusID:0000:05:00.0
totalMemory:23.65GiB自由内存:23.48GiB
2019-11-24 11:40:02.350693:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1512]添加可见gpu设备:0,1
2019-11-24 11:40:02.350802:I tensorflow/core/common_runtime/gpu/gpu_device.cc:984]设备互连StreamExecutor与强度1边缘矩阵:
2019-11-24 11:40:02.350813:I tensorflow/core/common_runtime/gpu/gpu_device.cc:990]01
2019-11-24 11:40:02.350819:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1003]0:N
2019-11-24 11:40:02.350825:I tensorflow/core/common乇u运行时/gpu/gpu乇设备。cc:1003]1:N
2019-11-24 11:40:02.350923:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1115]创建了tensorflow设备(/job:localhost/replica:0/task:0/device:gpu:0,内存22844 MB)->物理gpu(设备:0,名称:TITAN RTX,pci
总线id:0000:04:00.0,计算能力:7.5)
2019-11-24 11:40:02.351154:I tensorflow/core/common_runtime/gpu/gpu_device.cc:1115]创建了tensorflow设备(/job:localhost/replica:0/task:0/device:gpu:1和22844MB内存)->物理gpu(设备:1,名称:TITAN RTX,pci
总线id:0000:05:00.0,计算能力:7.5)
2019-11-24 11:42:00.507478:W tensorflow/core/common_runtime/bfc_分配器。cc:267]分配器(GPU 0_bfc)试图分配120.88MiB时内存不足。当前分配摘要如下。
2019-11-24 11:42:00.507889:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(256):总块数:657,使用中的块数:654.164.2KB分配给块数。163.5KB在Bin中使用。2.6KiB客户端请求在Bin中使用
.
2019-11-24 11:42:00.507921:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(512):总块数:1619,正在使用的块数:1616.813.0KiB分配给块。811.0KiB在Bin中使用。631.2KiB客户端请求在中使用
箱子
2019-11-24 11:42:00.507940:I tensorflow/core/common_runtime/bfc_分配器。cc:597]Bin(1024):总块数:6,使用中的块数:为块分配了5.7.2KiB。在Bin中使用了6.2KiB。在Bin中请求了5.7KiB客户端。
2019-11-24 11:42:00.507957:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(2048):总块数:0,正在使用的块数:0.0B为块分配。0B在Bin中使用。0B客户端请求在Bin中使用。
2019-11-24 11:42:00.507973:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(4096):总块数:0,正在使用的块数:0.0B为块分配。0B在Bin中使用。0B客户端请求在Bin中使用。
2019-11-24 11:42:00.507989:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(8192):总块数:0,正在使用的块数:0.0B为块分配。0B在Bin中使用。0B客户端请求在Bin中使用。
2019-11-24 11:42:00.508015:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(16384):总块数:0,正在使用的块数:0.0B为块分配。0B在Bin中使用。0B客户端请求在Bin中使用。
2019-11-24 11:42:00.508033:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(32768):总块数:55,正在使用的块数:55.3.06MiB分配给块。3.06MiB在Bin中使用。3.05MiB客户端请求在使用I
林斌。
2019-11-24 11:42:00.508053:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(65536):总块数:332,正在使用的块数:331.40.61MiB分配给块。40.51MiB在Bin中使用。40.48MiB客户端请求
在垃圾箱中使用。
2019-11-24 11:42:00.508072:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(131072):总块数:103,正在使用的块数:103.20.65MiB分配给块。20.65MiB在Bin中使用。20.40MiB客户端在
在垃圾箱中使用。
2019-11-24 11:42:00.508091:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(262144):总块数:104,正在使用的块数:104
在垃圾箱中使用。
2019-11-24 11:42:00.508111:I tensorflow/core/common_runtime/bfc_allocator.cc:597]Bin(524288):总块数:175,正在使用的块数:174.122.76MiB分配给块。122.02MiB在Bin中使用。121.99MiB客户端请求
在垃圾箱中使用。
2019-11-24 11:42:00.508130:I tensorflow/core/common_runtime/bfc_分配器。cc:597]Bin(1048576):总块数:29000