Math 调整数学并行码_Math_Scientific Computing

Math 调整数学并行码

math

Math 调整数学并行码,math,scientific-computing,Math,Scientific Computing,假设我对线性代数迭代多线程解算器的性能而不是可移植性感兴趣，并且我手头有评测代码的结果，那么我该如何调整代码以在我选择的机器上以最佳方式运行呢该算法涉及矩阵向量乘法、范数和点积。（FWIW，我正在研究CG和GMRES）我正在研究的代码的矩阵大小大致相当于RAM的全部大小（~6GB）。我将在英特尔i3笔记本电脑上工作。我将使用“英特尔MKL”链接我的代码具体来说, 有学习手动调优的好资源（PDF/Book/Paper）吗？我通过这样做学到了很多东西，例如：手动展开并不总是最佳的，或者关于编

假设我对线性代数迭代多线程解算器的性能而不是可移植性感兴趣，并且我手头有评测代码的结果，那么我该如何调整代码以在我选择的机器上以最佳方式运行呢

该算法涉及矩阵向量乘法、范数和点积。（FWIW，我正在研究CG和GMRES）

我正在研究的代码的矩阵大小大致相当于RAM的全部大小（~6GB）。我将在英特尔i3笔记本电脑上工作。我将使用“英特尔MKL”链接我的代码

具体来说,

有学习手动调优的好资源（PDF/Book/Paper）吗？我通过这样做学到了很多东西，例如：手动展开并不总是最佳的，或者关于编译器标志，但我更喜欢集中的资源
我需要一些来将探查器信息转换为改进的性能。例如，我的探查器告诉我，一个处理器的堆栈正在被另一个处理器访问，或者我的
```
mulpd
```
ASM占用了太多时间。我不知道这些是什么意思，也不知道如何使用这些信息来改进代码

我的意图是花尽可能多的时间来压缩尽可能多的计算能力。到目前为止，它更多的是一种学习体验，而不是实际使用或分发

（我关心的是手动调谐而不是自动调谐）

杂项详情：

这与通常的性能调整不同，因为代码的主要部分链接到英特尔专有的MKL库
由于O（N^2）矩阵向量乘法和依赖关系中的内存带宽问题，我可以通过简单的观察来管理的内容是有限的
我用C和Fortran编写，我已经尝试了这两种语言，正如我们讨论过的一百万次那样，如果我适当地调整它们，我发现这两种语言都没有区别