Matrix 用OpenCL对大量小矩阵进行Cholesky分解

Matrix 用OpenCL对大量小矩阵进行Cholesky分解,matrix,opencl,gpu,gpgpu,Matrix,Opencl,Gpu,Gpgpu,我的问题与这里的问题类似:[链接],只是我想做Cholesky分解。另外,我的矩阵将从15x15到100x100,我将有多达100000个矩阵。所有矩阵的维数都相同。分解后的矩阵将在GPU中进一步使用 本文[链接]从较高的层次讨论了算法。他们使用术语batched Cholesky来解决此类问题(大量小矩阵)。他们这样做的方式是实现Cholesky分解中涉及的所有步骤的批处理版本 所以我想从分批矩阵乘法开始(因为这是cholesky分解中的一个步骤)。对于大型矩阵,矩阵乘法在GPU上以分块方式完

我的问题与这里的问题类似:[链接],只是我想做Cholesky分解。另外,我的矩阵将从15x15到100x100,我将有多达100000个矩阵。所有矩阵的维数都相同。分解后的矩阵将在GPU中进一步使用

本文[链接]从较高的层次讨论了算法。他们使用术语batched Cholesky来解决此类问题(大量小矩阵)。他们这样做的方式是实现Cholesky分解中涉及的所有步骤的批处理版本


所以我想从分批矩阵乘法开始(因为这是cholesky分解中的一个步骤)。对于大型矩阵,矩阵乘法在GPU上以分块方式完成。我的问题是:它是否适合我遇到的问题?任何其他建议都会有帮助。我有点不确定如何处理这个问题。

我认为任何类型的可重用(从3-5次开始)变量都适合本地内存优化(平铺)。同意。我在OpenCL中从头开始编程Levenburg-Marquardt,它的运行速度快了100倍。这里面有很多矩阵运算。这可能值得一试