Blas 标准行向量矩阵运算

Blas 标准行向量矩阵运算,blas,intel-mkl,Blas,Intel Mkl,我正在搜索行向量矩阵运算,我认为应该是BLAS 2级例程。例如,从矩阵逐行生成向量,或通过其行和对矩阵进行规格化。有这样的优化标准例程吗?不幸的是,BLAS中没有这样的操作。此处列出了所有可用的子例程: 您可以编写自己的子例程,并为norm、axpy等作业调用BLAS级别1。。。然而,业绩的增长通常不大 ->BLAS对于矩阵或矩阵向量产品非常重要,因为在这些产品中,缓存管理、数据位置和访问模式对性能有很大影响。有cblas_?scal之类的例程,向量矩阵操作的性能增益应该更大。如果向量大小不是寄

我正在搜索行向量矩阵运算,我认为应该是BLAS 2级例程。例如,从矩阵逐行生成向量,或通过其行和对矩阵进行规格化。有这样的优化标准例程吗?

不幸的是,BLAS中没有这样的操作。此处列出了所有可用的子例程:

您可以编写自己的子例程,并为norm、axpy等作业调用BLAS级别1。。。然而,业绩的增长通常不大


->BLAS对于矩阵或矩阵向量产品非常重要,因为在这些产品中,缓存管理、数据位置和访问模式对性能有很大影响。

有cblas_?scal之类的例程,向量矩阵操作的性能增益应该更大。如果向量大小不是寄存器计数的倍数,那么寄存器的使用就不好。Mb这是因为向量矩阵运算不太流行。