Parallel processing 如何在多个GPU上缩放cholesky分解
我使用ATI Stream SDK在GPU上实现了Cholesky分解,用于求解大型线性方程。现在我想利用越来越多的GPU的计算能力,我想在多个GPU上运行这段代码 目前我有一台机器和一个GPU安装在它和cholesky分解是正常运行。Parallel processing 如何在多个GPU上缩放cholesky分解,parallel-processing,gpu,distributed-computing,gpgpu,Parallel Processing,Gpu,Distributed Computing,Gpgpu,我使用ATI Stream SDK在GPU上实现了Cholesky分解,用于求解大型线性方程。现在我想利用越来越多的GPU的计算能力,我想在多个GPU上运行这段代码 目前我有一台机器和一个GPU安装在它和cholesky分解是正常运行。 我想为N机器做这件事,所有的机器上都安装了一个GPU。因此,建议我应该如何进行 这是一个非常专业的问题。建议您检查和。首先,您必须意识到这种方法将为节点之间的任何通信引入三个级别的延迟: 机器1上的GPU内存到机器1上的主内存 机器1上的主存储器到机器2上的主存
我想为N机器做这件事,所有的机器上都安装了一个GPU。因此,建议我应该如何进行 这是一个非常专业的问题。建议您检查和。首先,您必须意识到这种方法将为节点之间的任何通信引入三个级别的延迟:
- 确定如何更新因式分解算法以支持单独节点的处理
- 设置N台计算机之间的数据交换(我注意到您为此选择了MPI)
- 设置将在计算节点之间划分输入问题的分散操作
- 设置计算机与其GPU之间的数据交换
- 设置收集操作,将结果从节点收集到一个节点中