Image 并行性:将奇数元素内核加载到向量以进行卷积
假设我有一个非常小的奇数元素内核(3x3)(存储在1D数组中),我想使用SSE将该内核加载到向量中并进行并行处理 浮动*A 如果我这样做: _mm128 a1=(A+0) _mm128 a2=(A+4) _mm128 a3=(A+8) 那就太离谱了。此外,并行性需要4个向量来优化结果 为了使用SSE,将小(奇数元素)内核加载到vector中的最佳方法是什么Image 并行性:将奇数元素内核加载到向量以进行卷积,image,parallel-processing,kernel,convolution,Image,Parallel Processing,Kernel,Convolution,假设我有一个非常小的奇数元素内核(3x3)(存储在1D数组中),我想使用SSE将该内核加载到向量中并进行并行处理 浮动*A 如果我这样做: _mm128 a1=(A+0) _mm128 a2=(A+4) _mm128 a3=(A+8) 那就太离谱了。此外,并行性需要4个向量来优化结果 为了使用SSE,将小(奇数元素)内核加载到vector中的最佳方法是什么 谢谢。不用将内核加载到SSE寄存器中,您可以加载它正在运行的阵列。然后广播每个内核元素,并一次操作4个(使用AVX时为8个)元素/像素。这样
谢谢。不用将内核加载到SSE寄存器中,您可以加载它正在运行的阵列。然后广播每个内核元素,并一次操作4个(使用AVX时为8个)元素/像素。这样一来,核的大小就无关紧要了。核是可分离的吗?例如,它是高斯核吗?