二维图像CUDA卷积的快速/简便方法?

二维图像CUDA卷积的快速/简便方法?,cuda,Cuda,你有耐心回答新手的问题吗 (我将根据回答重新表述问题。) 我需要将一个内核(16x16浮点)卷积到多个2kx2k映像(浮点)上。cuBLAS或cuFFT(对于cuFFT,我假设我必须首先将图像和内核转换为傅里叶空间)中已经有了这样的东西吗?(假设我不能使用openCV或NPP,除非是复制源代码) 您会选择哪一个选项: 使用CuFFT,将图像和内核转换为傅里叶空间,进行滤波,然后进行逆FFT 沿着NVIDA SDK的路线推出我自己的: 看看做一个盒子过滤器,并使用一个积分(求和图像) 我能够使用U

你有耐心回答新手的问题吗

(我将根据回答重新表述问题。)

我需要将一个内核(16x16浮点)卷积到多个2kx2k映像(浮点)上。cuBLAS或cuFFT(对于cuFFT,我假设我必须首先将图像和内核转换为傅里叶空间)中已经有了这样的东西吗?(假设我不能使用openCV或NPP,除非是复制源代码)

您会选择哪一个选项:

  • 使用CuFFT,将图像和内核转换为傅里叶空间,进行滤波,然后进行逆FFT
  • 沿着NVIDA SDK的路线推出我自己的:
  • 看看做一个盒子过滤器,并使用一个积分(求和图像)

  • 我能够使用UIUC的学生论文和Nvidia的白皮书实现该算法。谢谢罗伯特。

    正如你的链接中指出的,英伟达可分离卷积示例代码非常快,