Python 从“nvidia smi”命令了解GPU进程

Python 从“nvidia smi”命令了解GPU进程,python,tensorflow,nvidia,Python,Tensorflow,Nvidia,我有一台带有NVidia RTX 2070 GPU的新笔记本电脑,我正在使用它来训练tensorflow 2.1型号。不幸的是,我有GPU OOM(内存不足)的问题——在训练崩溃的过程中,我减少了RAM的使用量,但当然问题仍然存在。 我试图检查是什么导致GPU出故障。当我在终端中键入nvidia smi时,我得到以下输出: +-----------------------------------------------------------------------------+ | NVIDI

我有一台带有NVidia RTX 2070 GPU的新笔记本电脑,我正在使用它来训练
tensorflow 2.1
型号。不幸的是,我有GPU OOM(内存不足)的问题——在训练崩溃的过程中,我减少了RAM的使用量,但当然问题仍然存在。 我试图检查是什么导致GPU出故障。当我在终端中键入
nvidia smi
时,我得到以下输出:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64.00    Driver Version: 440.64.00    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2070    On   | 00000000:01:00.0 Off |                  N/A |
| N/A   43C    P8     6W /  N/A |   1009MiB /  7982MiB |     11%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1209      G   /usr/lib/xorg/Xorg                            72MiB |
|    0      1237      G   /usr/bin/gnome-shell                          52MiB |
|    0      1565      G   /usr/lib/xorg/Xorg                           481MiB |
|    0      1693      G   /usr/bin/gnome-shell                         195MiB |
|    0     12312      G   ...uest-channel-token=14048285025818334832   204MiB |
+-----------------------------------------------------------------------------+

这些过程是关于什么的?你能帮我解释和理解它们吗?有什么我可以杀死的吗?如何杀死?

所有进程都是X-windows显示进程。如果你的笔记本电脑有一些劣质的车载视频(为了省电,很多都有),你可以将其配置为使用它来驱动显示器,这样就可以释放出用于计算的高级卡。

我有相同的GPU,但在我的nvidia smi上,我只有两个Xorg进程,每个进程14 MiB。这就是全部。你的程序是12312,是不是一个jupyter笔记本?我发现有时候这些笔记本在我杀死它们时并没有真的死掉,而是周期性地做一个
ps aux | grep jupyter
来找到它们并杀死它们。我没有使用jupyter,而是从终端调用
train.py
脚本。您认为我的进程队列有问题吗?我不确定。您可以尝试重新启动或终止这些进程(这将使您注销),然后,可能会减少培训的批处理大小?如果你的代码支持混合精度(),你也可以尝试启用它。你能写一个关于如何做到这一点的答案吗?对不起,我是GPU新手。另外,为了以防万一,杀掉jupyter进程的命令是什么?对不起,我是GPU的新手,我没有完全理解你的评论。什么是“车载视频”?如何配置?另外,您认为我的进程队列有问题吗?@Leevo您的进程队列没有问题。至于如何配置,这是一个linux问题。是否可以强制我的计算机运行
Xorg
gnome shell
以使用CPU而不是GPU?@leevo因为我们谈论的是视频驱动程序,你必须在某个时候使用GPU。