OpenCL马里GEMM&;adreno GPU';s

OpenCL马里GEMM&;adreno GPU';s,opencl,matrix-multiplication,gpu,Opencl,Matrix Multiplication,Gpu,我尝试使用现有的OpenCLBLAS库,如clBLAS、CLBlast、ARM计算库进行GEMM操作(矩阵乘法)。但在这些GPU上,它们的性能似乎是次优的 是否有任何示例自定义GEMM实现可用于移动GPU(如Mali&Adreno GPU),以提供良好的性能 他们的表现在哪些方面是次优的?在GFLOPS方面,我看到许多github问题,这些库的作者提到这些GPU中的OpenCL驱动程序没有促进展开和现有库中使用的其他技术。他们还提到手工制作的内核比这些库快40%。我找不到任何这样的手工制作的内核

我尝试使用现有的OpenCLBLAS库,如clBLAS、CLBlast、ARM计算库进行GEMM操作(矩阵乘法)。但在这些GPU上,它们的性能似乎是次优的


是否有任何示例自定义GEMM实现可用于移动GPU(如Mali&Adreno GPU),以提供良好的性能

他们的表现在哪些方面是次优的?在GFLOPS方面,我看到许多github问题,这些库的作者提到这些GPU中的OpenCL驱动程序没有促进展开和现有库中使用的其他技术。他们还提到手工制作的内核比这些库快40%。我找不到任何这样的手工制作的内核,尽管它们的性能在哪方面是次优的?在GFLOPS方面,我看到许多github问题,这些库的作者提到这些GPU中的OpenCL驱动程序没有促进展开和现有库中使用的其他技术。他们还提到手工制作的内核比这些库快40%。但是我找不到任何这样的手工制作的内核