Computer vision 针对低内存集成设备(如arm处理器/GPU)的优化GPU卷积?

Computer vision 针对低内存集成设备(如arm处理器/GPU)的优化GPU卷积?,computer-vision,arm,opencl,convolution,mali,Computer Vision,Arm,Opencl,Convolution,Mali,我希望在arm mali GPU上实现卷积运算,并希望它在速度和内存方面都得到优化?最好的方法是什么?基于GEMM的MCMK卷积不适合,因为它们占用了大量内存。而且,在GPU上直接实现要比相应的CPU版本慢得多。时间计算中应考虑内存重塑的任何时间。您是否尝试过基于傅立叶变换的卷积?当滤波器宽度为20-30或更大时,它比原始卷积快很多倍,尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用,因此在最大情况下,过滤器宽度将为7,而通用内核宽度将为3或5!有关一些预优化的实现,请参阅。您是

我希望在arm mali GPU上实现卷积运算,并希望它在速度和内存方面都得到优化?最好的方法是什么?基于GEMM的MCMK卷积不适合,因为它们占用了大量内存。而且,在GPU上直接实现要比相应的CPU版本慢得多。时间计算中应考虑内存重塑的任何时间。

您是否尝试过基于傅立叶变换的卷积?当滤波器宽度为20-30或更大时,它比原始卷积快很多倍,尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用,因此在最大情况下,过滤器宽度将为7,而通用内核宽度将为3或5!有关一些预优化的实现,请参阅。您是否尝试过基于傅立叶变换的卷积?当滤波器宽度为20-30或更大时,它比原始卷积快很多倍,尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用,因此在最大情况下,过滤器宽度将为7,而通用内核宽度将为3或5!有关一些预优化的实现,请参阅。