Computer vision 针对低内存集成设备（如arm处理器/GPU）的优化GPU卷积？_Computer Vision_Arm_Opencl_Convolution_Mali

Computer vision 针对低内存集成设备（如arm处理器/GPU）的优化GPU卷积？

computer-vision arm opencl

Computer vision 针对低内存集成设备（如arm处理器/GPU）的优化GPU卷积？,computer-vision,arm,opencl,convolution,mali,Computer Vision,Arm,Opencl,Convolution,Mali,我希望在arm mali GPU上实现卷积运算，并希望它在速度和内存方面都得到优化？最好的方法是什么？基于GEMM的MCMK卷积不适合，因为它们占用了大量内存。而且，在GPU上直接实现要比相应的CPU版本慢得多。时间计算中应考虑内存重塑的任何时间。您是否尝试过基于傅立叶变换的卷积？当滤波器宽度为20-30或更大时，它比原始卷积快很多倍，尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用，因此在最大情况下，过滤器宽度将为7，而通用内核宽度将为3或5！有关一些预优化的实现，请参阅。您是

我希望在arm mali GPU上实现卷积运算，并希望它在速度和内存方面都得到优化？最好的方法是什么？基于GEMM的MCMK卷积不适合，因为它们占用了大量内存。而且，在GPU上直接实现要比相应的CPU版本慢得多。时间计算中应考虑内存重塑的任何时间。

您是否尝试过基于傅立叶变换的卷积？当滤波器宽度为20-30或更大时，它比原始卷积快很多倍，尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用，因此在最大情况下，过滤器宽度将为7，而通用内核宽度将为3或5！有关一些预优化的实现，请参阅。您是否尝试过基于傅立叶变换的卷积？当滤波器宽度为20-30或更大时，它比原始卷积快很多倍，尤其是当卷积滤波器和图像大小相同时。我主要关心的是计算机视觉应用，因此在最大情况下，过滤器宽度将为7，而通用内核宽度将为3或5！有关一些预优化的实现，请参阅。