Matrix 用OpenCL对大量小矩阵进行Cholesky分解_Matrix_Opencl_Gpu_Gpgpu

Matrix 用OpenCL对大量小矩阵进行Cholesky分解

matrix opencl

Matrix 用OpenCL对大量小矩阵进行Cholesky分解,matrix,opencl,gpu,gpgpu,Matrix,Opencl,Gpu,Gpgpu,我的问题与这里的问题类似：[链接]，只是我想做Cholesky分解。另外，我的矩阵将从15x15到100x100，我将有多达100000个矩阵。所有矩阵的维数都相同。分解后的矩阵将在GPU中进一步使用本文[链接]从较高的层次讨论了算法。他们使用术语batched Cholesky来解决此类问题（大量小矩阵）。他们这样做的方式是实现Cholesky分解中涉及的所有步骤的批处理版本所以我想从分批矩阵乘法开始（因为这是cholesky分解中的一个步骤）。对于大型矩阵，矩阵乘法在GPU上以分块方式完

我的问题与这里的问题类似：[链接]，只是我想做Cholesky分解。另外，我的矩阵将从15x15到100x100，我将有多达100000个矩阵。所有矩阵的维数都相同。分解后的矩阵将在GPU中进一步使用

本文[链接]从较高的层次讨论了算法。他们使用术语batched Cholesky来解决此类问题（大量小矩阵）。他们这样做的方式是实现Cholesky分解中涉及的所有步骤的批处理版本

所以我想从分批矩阵乘法开始（因为这是cholesky分解中的一个步骤）。对于大型矩阵，矩阵乘法在GPU上以分块方式完成。我的问题是：它是否适合我遇到的问题？任何其他建议都会有帮助。我有点不确定如何处理这个问题。

我认为任何类型的可重用（从3-5次开始）变量都适合本地内存优化（平铺）。同意。我在OpenCL中从头开始编程Levenburg-Marquardt，它的运行速度快了100倍。这里面有很多矩阵运算。这可能值得一试