在不同的机器上实现OpenCL的最佳性能
由于OpenCL程序在多台机器上运行,每台机器都有其特定的体系结构,因此我想到了这个问题:我应该如何编写程序以在这些机器上获得最佳的平均性能 我很高兴听到你的建议:)在不同的机器上实现OpenCL的最佳性能,opencl,Opencl,由于OpenCL程序在多台机器上运行,每台机器都有其特定的体系结构,因此我想到了这个问题:我应该如何编写程序以在这些机器上获得最佳的平均性能 我很高兴听到你的建议:) 感谢我的与供应商无关的OpenCL优化建议,顺序如下: 内存访问 虽然GPU中的内存带宽是惊人的,但它通常是许多内核中最大的瓶颈。因此,尽量减少内存读取和写入。不要读取任何可能存储在变量中的内容两次 与(1)相关,使相邻的内核访问相邻的内存位置,以便GPU可以将访问合并为单个(通常为128位或更宽)读取或写入。一般来说,更喜欢宽访
感谢我的与供应商无关的OpenCL优化建议,顺序如下: 内存访问
祝你好运,玩得开心,在你的目标硬件上进行基准测试,以确保你的优化在所有硬件上都是积极的,在某些硬件上不会倒退。我的供应商不可知OpenCL优化建议,顺序如下: 内存访问
祝你好运,玩得开心,在你的目标硬件上进行基准测试,以确保你的优化在所有硬件上都是积极的,在某些硬件上不会倒退。关于内存访问下的第4点,你会遇到一个问题i