Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/image/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Image 并行性:将奇数元素内核加载到向量以进行卷积_Image_Parallel Processing_Kernel_Convolution - Fatal编程技术网

Image 并行性:将奇数元素内核加载到向量以进行卷积

Image 并行性:将奇数元素内核加载到向量以进行卷积,image,parallel-processing,kernel,convolution,Image,Parallel Processing,Kernel,Convolution,假设我有一个非常小的奇数元素内核(3x3)(存储在1D数组中),我想使用SSE将该内核加载到向量中并进行并行处理 浮动*A 如果我这样做: _mm128 a1=(A+0) _mm128 a2=(A+4) _mm128 a3=(A+8) 那就太离谱了。此外,并行性需要4个向量来优化结果 为了使用SSE,将小(奇数元素)内核加载到vector中的最佳方法是什么 谢谢。不用将内核加载到SSE寄存器中,您可以加载它正在运行的阵列。然后广播每个内核元素,并一次操作4个(使用AVX时为8个)元素/像素。这样

假设我有一个非常小的奇数元素内核(3x3)(存储在1D数组中),我想使用SSE将该内核加载到向量中并进行并行处理

浮动*A

如果我这样做:

_mm128 a1=(A+0)

_mm128 a2=(A+4)

_mm128 a3=(A+8)

那就太离谱了。此外,并行性需要4个向量来优化结果

为了使用SSE,将小(奇数元素)内核加载到vector中的最佳方法是什么


谢谢。

不用将内核加载到SSE寄存器中,您可以加载它正在运行的阵列。然后广播每个内核元素,并一次操作4个(使用AVX时为8个)元素/像素。这样一来,核的大小就无关紧要了。核是可分离的吗?例如,它是高斯核吗?