Image 并行性：将奇数元素内核加载到向量以进行卷积_Image_Parallel Processing_Kernel_Convolution

Image 并行性：将奇数元素内核加载到向量以进行卷积

image parallel-processing kernel

Image 并行性：将奇数元素内核加载到向量以进行卷积,image,parallel-processing,kernel,convolution,Image,Parallel Processing,Kernel,Convolution,假设我有一个非常小的奇数元素内核（3x3）（存储在1D数组中），我想使用SSE将该内核加载到向量中并进行并行处理浮动*A 如果我这样做： _mm128 a1=（A+0） _mm128 a2=（A+4） _mm128 a3=（A+8）那就太离谱了。此外，并行性需要4个向量来优化结果为了使用SSE，将小（奇数元素）内核加载到vector中的最佳方法是什么谢谢。不用将内核加载到SSE寄存器中，您可以加载它正在运行的阵列。然后广播每个内核元素，并一次操作4个（使用AVX时为8个）元素/像素。这样

假设我有一个非常小的奇数元素内核（3x3）（存储在1D数组中），我想使用SSE将该内核加载到向量中并进行并行处理

浮动*A

如果我这样做：

_mm128 a1=（A+0）

_mm128 a2=（A+4）

_mm128 a3=（A+8）

那就太离谱了。此外，并行性需要4个向量来优化结果

为了使用SSE，将小（奇数元素）内核加载到vector中的最佳方法是什么

谢谢。

不用将内核加载到SSE寄存器中，您可以加载它正在运行的阵列。然后广播每个内核元素，并一次操作4个（使用AVX时为8个）元素/像素。这样一来，核的大小就无关紧要了。核是可分离的吗？例如，它是高斯核吗？