Algorithm 慢内存无缓存机器的卷积/FFT算法？_Algorithm_Opencl_Fft_Convolution

Algorithm 慢内存无缓存机器的卷积/FFT算法？

algorithm opencl

Algorithm 慢内存无缓存机器的卷积/FFT算法？,algorithm,opencl,fft,convolution,Algorithm,Opencl,Fft,Convolution,我正在尝试使用OpenCL为GPU编写一个卷积函数基准测试表明，GPU的数据加载指令非常昂贵，并且运行时与LD指令的总数成线性比例，这表明GPU很少或没有缓存这导致中小型内核（~48）的卷积非常低效（约为峰值GFLOPS的1%）是否有一个特定的卷积算法，或FFT算法，最大限度地提高寄存器中的数据重用（最多64个4寄存器可用），并针对内存访问进行优化更新：首选浮点。您可以研究GPU上运行的FFT的发布版本。

我正在尝试使用OpenCL为GPU编写一个卷积函数

基准测试表明，GPU的数据加载指令非常昂贵，并且运行时与LD指令的总数成线性比例，这表明GPU很少或没有缓存

这导致中小型内核（~48）的卷积非常低效（约为峰值GFLOPS的1%）

是否有一个特定的卷积算法，或FFT算法，最大限度地提高寄存器中的数据重用（最多64个4寄存器可用），并针对内存访问进行优化

更新：首选浮点。

您可以研究GPU上运行的FFT的发布版本。