CUDA中矩阵运行和的并行化

CUDA中矩阵运行和的并行化,cuda,Cuda,我需要计算一个矩阵的累积和,即新累积和矩阵的每个索引(I,j)的值是由原始矩阵的子矩阵(0,0)到(I,j)形成的所有元素的和。有没有一种方法可以让我使用CUDA的多个线程将其并行化?累积和是一个扫描,CUDA SDK包括“扫描”示例。检查ScanLargeArray示例。这是一个非常精细的算法,甚至有一篇文章描述了优化算法所采取的所有步骤 Bing表示CUDA并行前缀和。

我需要计算一个矩阵的累积和,即新累积和矩阵的每个索引(I,j)的值是由原始矩阵的子矩阵(0,0)到(I,j)形成的所有元素的和。有没有一种方法可以让我使用CUDA的多个线程将其并行化?

累积和是一个扫描,CUDA SDK包括“扫描”示例。检查ScanLargeArray示例。这是一个非常精细的算法,甚至有一篇文章描述了优化算法所采取的所有步骤

Bing表示CUDA并行前缀和。