使用PyCUDA的Python多处理_Python_Cuda_Parallel Processing_Multiprocessing_Pycuda

使用PyCUDA的Python多处理

python cuda parallel-processing

使用PyCUDA的Python多处理,python,cuda,parallel-processing,multiprocessing,pycuda,Python,Cuda,Parallel Processing,Multiprocessing,Pycuda,我有一个问题，我想分割多个CUDA设备，但我怀疑我目前的系统架构阻碍了我我设置的是一个GPU类，带有在GPU上执行操作的函数（奇怪的是）。这些操作的风格相同 for iteration in range(maxval): result[iteration]=gpuinstance.gpufunction(arguments,iteration) 我原以为N个设备会有N个GPUInstance，但我对多处理的了解还不够，无法找到最简单的方法来应用它，以便异步分配每个设备，而且奇怪的是，

我有一个问题，我想分割多个CUDA设备，但我怀疑我目前的系统架构阻碍了我

我设置的是一个GPU类，带有在GPU上执行操作的函数（奇怪的是）。这些操作的风格相同

for iteration in range(maxval):
    result[iteration]=gpuinstance.gpufunction(arguments,iteration)

我原以为N个设备会有N个GPUInstance，但我对多处理的了解还不够，无法找到最简单的方法来应用它，以便异步分配每个设备，而且奇怪的是，我遇到的示例中很少给出处理后整理结果的具体演示

有人能在这方面给我指点吗

更新感谢Kaloyan在多处理领域的指导；如果CUDA不是特别的症结所在，我会把你标记为答案。对不起

显然，为了使用此实现，gpuinstance类使用import pycuda.autoinit启动了CUDA设备，但这似乎不起作用，只要每个（范围正确的）线程遇到CUDA命令，就会抛出

无效上下文

错误。然后，我尝试在类的

\uuuuu init\uuuu

构造函数中使用

pycuda.driver.init()
self.mydev=pycuda.driver.Device(devid) #this is passed at instantiation of class
self.ctx=self.mydev.make_context()
self.ctx.push()

我在这里的假设是，在创建gpuinstance列表和线程使用它们时，上下文会被保留，因此每个设备都在其自己的上下文中处于最佳状态

（我还实现了一个析构函数来处理

pop/detach

cleanup）

问题是，

无效上下文

异常仍然会在线程尝试触摸CUDA时出现

各位有什么想法吗？多亏走了这么远。自动向上投票给那些在答案中加入“香蕉”的人P

您需要的是

map

内置函数的多线程实现。这是一个实现。只要稍作修改以满足您的特殊需要，您就可以：

import threading

def cuda_map(args_list, gpu_instances):

    result = [None] * len(args_list)

    def task_wrapper(gpu_instance, task_indices):
        for i in task_indices:
            result[i] = gpu_instance.gpufunction(args_list[i])

    threads = [threading.Thread(
                    target=task_wrapper, 
                    args=(gpu_i, list(xrange(len(args_list)))[i::len(gpu_instances)])
              ) for i, gpu_i in enumerate(gpu_instances)]
    for t in threads:
        t.start()
    for t in threads:
        t.join()

    return result

这与上面的内容大致相同，最大的区别在于你不会花时间等待

gpuffunction

的每一次完成，你需要先把所有的香蕉都放在CUDA这一边，然后再考虑用Python实现这一点的最佳方法[我知道，无耻的重复卖淫]

CUDA multi-GPU模型在4.0之前非常简单-每个GPU都有自己的上下文，每个上下文必须由不同的主机线程建立。因此，伪代码的思想是：

应用程序启动时，进程使用API来确定可用GPU的数量（注意Linux中的计算模式）

应用程序在每个GPU上启动一个新的主机线程，并传递一个GPU id。每个线程隐式/显式地调用等效的cuCtxCreate（），并传递已分配的GPU id

利润在Python中，这可能如下所示：

import threading
from pycuda import driver

class gpuThread(threading.Thread):
    def __init__(self, gpuid):
        threading.Thread.__init__(self)
        self.ctx  = driver.Device(gpuid).make_context()
        self.device = self.ctx.get_device()

    def run(self):
        print "%s has device %s, api version %s"  \
             % (self.getName(), self.device.name(), self.ctx.get_api_version())
        # Profit!

    def join(self):
        self.ctx.detach()
        threading.Thread.join(self)

driver.init()
ngpus = driver.Device.count()
for i in range(ngpus):
    t = gpuThread(i)
    t.start()
    t.join()

这假设只建立上下文而不事先检查设备是安全的。理想情况下，您应该检查计算模式以确保可以安全地尝试，然后在设备忙时使用异常处理程序。但希望这给出了基本思路。

是

gpuinstance.gpuffunction（参数、迭代）

异步还是阻止执行？谢谢您的评论，它引导我找到了一个解决方案，但它遇到了与设备上下文相关的CUDA问题。更新问题以反映这一点now@talonmies像往常一样，谢谢，但快速查询：如果我理解正确，每个线程都是“实例化的”，执行的，并以直线方式连接。这不会导致执行连续运行吗？我认为最简单的解决办法是将

t.join（）

s分解成一个单独的循环。@Andrew Bolter:是的，我想start方法应该全部在一个循环中调用，然后再调用所有的连接。我也对这种情况下的全局解释器锁有点好奇。。。我必须承认我在我的python多gpu上使用了mpi4py，我也有一个用于多gpu的pthreads框架，但通常只使用C/C++和Fortran。@Andrew Bolter:我刚刚在我发布的代码的修改版本中添加了一点工具，我开始怀疑在这方面使用python线程是否明智。我不想打赌我在这一点上发布的内容的正确性……我怀疑我将以MPI为目标重构这个问题，但我觉得这应该是更微不足道的。另外，为了绕开线程缺陷，我也一直在研究多处理。此外，我不太理解您的“4.0之前”评论，因为我理解，以前的上下文相关多设备操作仍然受支持？