nv nsight cu cli导致Tensorflow失败

nv nsight cu cli导致Tensorflow失败,tensorflow,gpu,nvidia,nvprof,nsight-compute,Tensorflow,Gpu,Nvidia,Nvprof,Nsight Compute,我已经下载了最新的Nsight计算评测工具,我想用它来测试Tensorflow应用程序。我使用的代码是。当我执行它并且用nvprof./mnist.py对它进行基准测试时,它运行得非常好。但是,当我尝试使用命令sudo./nv nsight cu cli[文件路径]运行它时,我得到以下错误: ImportError:libcublas.so.9.0:无法打开共享对象文件:没有此类文件或目录 我怀疑nv nsight cu cli根本无法识别环境变量。有什么解决方法吗?您需要搜索两种环境中的差异:

我已经下载了最新的Nsight计算评测工具,我想用它来测试Tensorflow应用程序。我使用的代码是。当我执行它并且用
nvprof./mnist.py
对它进行基准测试时,它运行得非常好。但是,当我尝试使用命令
sudo./nv nsight cu cli[文件路径]
运行它时,我得到以下错误:

ImportError:libcublas.so.9.0:无法打开共享对象文件:没有此类文件或目录


我怀疑
nv nsight cu cli
根本无法识别环境变量。有什么解决方法吗?

您需要搜索两种环境中的差异:

  • 环境变量
  • LD\u库路径
  • /etc/ld.so.conf
  • /etc/ld.so.conf.d/*
  • 库布拉斯
    • 安装是否完成/未损坏
    • 它是否安装在两台机器上的同一位置
    • 版本
您可以从
查找libcublas.so
开始,在两台机器上查看是否存在差异。或者,您可以
strace-f-e打开程序
检查它试图从哪里
libcublas.so
执行操作


您的错误(目前)与GPU无关:
libcublas.so.9.0
。找到它,找到Tensorflow找不到它的原因,您的问题就会得到解决。

目前该工具似乎不支持GP100。 答案是:

Nsight Compute仅支持Pascal(GP100除外)和更高版本的GPU


你解决那个问题了吗?如果没有,为什么要用
sudo
运行nsight?记住,如果你想保留你的环境变量(比如LD_LIBRARY_PATH)@RobinThoni,你需要使用
sudo-E
,我认为这个工具在特斯拉P100上不起作用。我在GTX1080上尝试了相同的程序,效果非常好。你知道为什么它在特斯拉P100上不起作用吗?顺便说一句,我使用了cuda 10.1中提供的一个,仍然没有luckDid,您运行在同一台机器和环境上?@RobinThoni是的,这是一个网络文件系统,所以所有内容都应该保持不变,但它是一台不同的机器?我遵循了您提到的步骤。在/etc/ld.so.conf.d/*中确实存在一些差异。我还想提到的是,无论我是否运行Tensorflow,命令都失败了。它在每个cuda程序上都失败了,即使是我自己创建的没有其他库依赖项的简单程序。更具体地说,我尝试了cuda样本中的matrixMul程序。我可以看到程序开始执行,但一旦到达cuda调用,它就会返回错误代码11。你知道这个错误代表什么吗?经过仔细搜索,我在这里找到了答案:出于某种原因,GP100似乎不受支持。但是谢谢你的回复。哦,是的,对不起,我甚至没有注意到它是什么GPU,因为最初的问题是加载一个共享库。。。