Deep learning caffe中不提供多个GPU培训

Deep learning caffe中不提供多个GPU培训,deep-learning,caffe,Deep Learning,Caffe,我在尝试将caffe与多个GPU一起使用时遇到问题。执行以下命令时,我得到如下错误日志: caffe train -solver $SOLVER -gpu 0,1 2>&1 | tee $LOGGING F0409 14:17:22.355074 12079 caffe.cpp:254] Multi-GPU execution not available - rebuild with USE_NCCL *** Check failure stack trace: ***

我在尝试将caffe与多个GPU一起使用时遇到问题。执行以下命令时,我得到如下错误日志:

caffe train -solver $SOLVER -gpu 0,1 2>&1 | tee $LOGGING

F0409 14:17:22.355074 12079 caffe.cpp:254] Multi-GPU execution not available - rebuild with USE_NCCL
*** Check failure stack trace: ***
    @     0x2aee66002b2d  google::LogMessage::Fail()
    @     0x2aee66004995  google::LogMessage::SendToLog()
    @     0x2aee660026a9  google::LogMessage::Flush()
    @     0x2aee6600542e  google::LogMessageFatal::~LogMessageFatal()
    @           0x40c172  train()
    @           0x4084f3  main
    @     0x2aee78f67b35  __libc_start_main
    @           0x408f0b  (unknown)
有人能解释一下这里出了什么问题吗?有没有我不知道的咖啡虫

  • 安装CUDA
  • 安装cuDNN
  • 安装依赖项
    $ sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler libgflags-dev libgoogle-glog-dev liblmdb-dev libatlas-base-dev git  
    $ sudo apt-get install --no-install-recommends libboost-all-dev
    
  • 安装NCCL

    NVIDIA NCCL需要在多个GPU上运行Caffe。可以使用以下命令安装NCCL:

    $ git clone https://github.com/NVIDIA/nccl.git
    $ cd nccl
    $ sudo make install -j
    
    NCCL库和头将安装在
    /usr/local/lib
    /usr/local/include

  • 安装Caffe

    取消对行的注释
    使用\u CUDNN:=1
    。这将启用cuDNN加速。 取消对行的注释
    使用\u NCCL:=1
    。这将启用在多个GPU上运行Caffe所需的NCCL

    保存并关闭文件。现在可以编译Caffe了

    $ make all -j
    
    此命令完成后,Caffe二进制文件将在build/tools/Caffe中可用


  • NCCL用于多gpu通信。您必须在makefile.config中启用
    使用=1
    。然后重建。你为什么留下评论而不是回答问题?所以我不能给你任何信用。是的,我会努力做到的@在许多情况下,有些解决方案太短,不能作为答案@英曼很好地将此作为一个评论::-)我不同意你的意见。我认为当他只回答问题时,这一点更为明显,这样每个人都可以在不阅读评论的情况下快速地看到它。所以你把它作为一个答案写下来并接受它。这不是我该做的。