Algorithm 慢内存无缓存机器的卷积/FFT算法?

Algorithm 慢内存无缓存机器的卷积/FFT算法?,algorithm,opencl,fft,convolution,Algorithm,Opencl,Fft,Convolution,我正在尝试使用OpenCL为GPU编写一个卷积函数 基准测试表明,GPU的数据加载指令非常昂贵,并且运行时与LD指令的总数成线性比例,这表明GPU很少或没有缓存 这导致中小型内核(~48)的卷积非常低效(约为峰值GFLOPS的1%) 是否有一个特定的卷积算法,或FFT算法,最大限度地提高寄存器中的数据重用(最多64个4寄存器可用),并针对内存访问进行优化 更新:首选浮点。您可以研究GPU上运行的FFT的发布版本。

我正在尝试使用OpenCL为GPU编写一个卷积函数

基准测试表明,GPU的数据加载指令非常昂贵,并且运行时与LD指令的总数成线性比例,这表明GPU很少或没有缓存

这导致中小型内核(~48)的卷积非常低效(约为峰值GFLOPS的1%)

是否有一个特定的卷积算法,或FFT算法,最大限度地提高寄存器中的数据重用(最多64个4寄存器可用),并针对内存访问进行优化


更新:首选浮点。

您可以研究GPU上运行的FFT的发布版本。