OpenCL-本地内存效率
我有一个AMD的GPU,我想实现'矩阵转置'的例子。设想两种实现方案: (一)OpenCL-本地内存效率,opencl,Opencl,我有一个AMD的GPU,我想实现'矩阵转置'的例子。设想两种实现方案: (一) 从全局内存读取(当前位置) 写入全局内存(目标位置) (二) 从全局存储器读取(当前位置) 写入本地存储器 从本地存储器读取 写入全局内存(目标位置) 假设我为这两种解决方案选择了最佳的工作组规模。 顺便说一下,第二种算法利用了对本地内存的协作写入 最后,令人惊讶的是,第二个场景的速度是第一个场景的两倍。我就是不明白为什么 我可以看到,在第一个例子中,我们有一个从全局内存读取和写入的过程,在第二个例子中,除了
- 从全局内存读取(当前位置)
- 写入全局内存(目标位置)
- 从全局存储器读取(当前位置)
- 写入本地存储器
- 从本地存储器读取
- 写入全局内存(目标位置)