Gcc 缩放索引寻址模式是个好主意吗？_Gcc_Assembly_Clang_X86 64_Micro Optimization

Gcc 缩放索引寻址模式是个好主意吗？

gcc assembly clang

Gcc 缩放索引寻址模式是个好主意吗？,gcc,assembly,clang,x86-64,micro-optimization,Gcc,Assembly,Clang,X86 64,Micro Optimization,考虑以下代码： void foo(int* __restrict__ a) { int i; int val = 0; for (i = 0; i < 100; i++) { val = 2 * i; a[i] = val; } } clang 5.0： foo(int*): # @foo(int*) xor eax, eax .LBB0_1: # =>This Inner Loop Header: Depth=1 m

考虑以下代码：

void foo(int* __restrict__ a)
{
    int i; int val = 0;
    for (i = 0; i < 100; i++) {
        val = 2 * i;
        a[i] = val;
    }
}

clang 5.0：

foo(int*): # @foo(int*)
  xor eax, eax
.LBB0_1: # =>This Inner Loop Header: Depth=1
  mov dword ptr [rdi + 2*rax], eax
  add rax, 2
  cmp rax, 200
  jne .LBB0_1
  ret

GCC与clang方法的优缺点是什么？i、 e.一个额外的变量单独递增，而不是通过更复杂的寻址模式相乘

注:

这个问题也与大约相同的代码有关，但与
```
float
```
有关，而不是与
```
int
```
有关

lea

在许多µarch上，使用索引寻址的指令比不使用索引寻址的指令的延迟稍长。但通常吞吐量是一个更重要的考虑因素
在Netburst上，具有的存储将生成额外的µop，因此可能会降低吞吐量。SIB字节会导致额外的µop，无论您是否将其用于索引寻址，但索引寻址总是会花费额外的µop。它不适用于加载
在Haswell/Broadwell（仍在Skylake/Kabylake中）上，具有索引寻址的存储不能用于地址生成，而是将使用一个更通用的地址生成端口，从而降低负载可用的吞吐量

add

是的，如果索引未分解为比指针增量所需的额外UOP更多的UOP，请利用x86寻址模式的强大功能来节省UOP。

mov

如果你想在这里做出最佳选择，阅读和理解是非常重要的。

[base+0-2047]

如果您已经使用2寄存器寻址模式，则索引的缩放是免费的（至少在现代CPU上）。对于
lea
，Agner Fog的表格列出了AMD Ryzen在
lea
具有缩放索引寻址模式（或3分量）时具有2c延迟和每时钟2吞吐量，否则为1c延迟和
0.25c
吞吐量。e、 g.
lea-rax，[rcx+rdx]
比
lea-rax，[rcx+2*rdx]
快，但不值得使用额外的指令。）出于某种原因，Ryzen也不喜欢64位模式下的32位目标。但最坏情况下的LEA仍然不坏。无论如何，大多数情况下与加载的地址模式选择无关，因为大多数CPU（除了order Atom）在ALU上运行LEA，而不是用于实际加载/存储的AGU
主要问题是一个未标度的寄存器（因此它可以是机器代码编码中的“基”寄存器：
[base+idx*scale+disp]
）或两个寄存器之间的问题。请注意，对于Intel的micro fusion限制，
[disp32+idx*scale]
（例如，索引静态阵列）是一种索引寻址模式

这两个函数都不是完全最优的（即使不考虑展开或矢量化），但clang的看起来非常接近
clang唯一能做得更好的事情就是通过使用
addeax，2
和
cmpeax，200
避免REX前缀来节省2字节的代码大小。它将所有操作数提升到64位，因为它将它们与指针一起使用，我想这证明了C循环不需要它们包装，所以在asm中，它在任何地方都使用64位。这是毫无意义的；32位操作总是至少与64位操作一样快，并且隐式零扩展是免费的。但这只需要2字节的代码大小，并且除了间接的前端效果之外，不需要任何性能
您已经构建了循环，因此编译器需要在寄存器中保留一个特定的值，并且不能完全将问题转化为指针增量+与结束指针的比较（当编译器除了数组索引之外不需要循环变量时，通常会这样做）
您也不能将负索引的计数转换为零（编译器从来不会这样做，但会将循环开销减少到英特尔CPU上总共1个宏融合add+分支uop（它可以融合
add+jcc
，而AMD只能融合test或cmp/jcc）。
foo(int*): # @foo(int*) xor eax, eax .LBB0_1: # =>This Inner Loop Header: Depth=1 mov dword ptr [rdi + 2*rax], eax add rax, 2 cmp rax, 200 jne .LBB0_1 ret