Optimization 内存读写汇编指令的优化排序

Optimization 内存读写汇编指令的优化排序,optimization,assembly,x86-64,sse2,Optimization,Assembly,X86 64,Sse2,我想知道在Core 2和Westmile之间的英特尔处理器上,下面这样的指令序列的最佳顺序是什么。这是AT&T语法,因此pxor指令是内存读取,movdqa是内存写入: movdqa %xmm0, -128+64(%rbx) movdqa %xmm1, -128+80(%rbx) movdqa %xmm2, -128+96(%rbx) movdqa %xmm3, -128+112(%rbx) pxor -128(%rsp), %xmm0

我想知道在Core 2和Westmile之间的英特尔处理器上,下面这样的指令序列的最佳顺序是什么。这是AT&T语法,因此
pxor
指令是内存读取,
movdqa
是内存写入:

    movdqa  %xmm0, -128+64(%rbx)
    movdqa  %xmm1, -128+80(%rbx)
    movdqa  %xmm2, -128+96(%rbx)
    movdqa  %xmm3, -128+112(%rbx)
    pxor    -128(%rsp), %xmm0
    pxor    -112(%rsp), %xmm1
    pxor    -96(%rsp), %xmm2
    pxor    -80(%rsp), %xmm3
    movdqa  %xmm8, 64(%rbx)
    movdqa  %xmm9, 80(%rbx)
    movdqa  %xmm10, 96(%rbx)
    movdqa  %xmm11, 112(%rbx)
    pxor    -128(%r14), %xmm8
    pxor    -112(%r14), %xmm9
    pxor    -96(%r14), %xmm10
    pxor    -80(%r14), %xmm11
    movdqa  %xmm12, 64(%rdx)
    movdqa  %xmm13, 80(%rdx)
    movdqa  %xmm14, 96(%rdx)
    movdqa  %xmm15, 112(%rdx)
    pxor    0(%r14), %xmm12
    pxor    16(%r14), %xmm13
    pxor    32(%r14), %xmm14
    pxor    48(%r14), %xmm15
%r14
%rsp
%rdx
%rbx
是256的不同倍数。换句话说,上面的说明中没有不明显的别名,并且数据已被安排用于对齐访问大数据块。所有被访问的内存线都在一级缓存中

一方面,我对Agner Fog的理解使我相信,通过如下顺序,可以按周期获得接近两个指令:

movdqa  %xmm0, -128+64(%rbx)
movdqa  %xmm1, -128+80(%rbx)
pxor    -128(%rsp), %xmm0
movdqa  %xmm2, -128+96(%rbx)
pxor    -112(%rsp), %xmm1
movdqa  %xmm3, -128+112(%rbx)
pxor    -96(%rsp), %xmm2
movdqa  %xmm8, 64(%rbx)
pxor    -80(%rsp), %xmm3
movdqa  %xmm9, 80(%rbx)
pxor    -128(%r14), %xmm8
movdqa  %xmm10, 96(%rbx)
pxor    -112(%r14), %xmm9
movdqa  %xmm11, 112(%rbx)
pxor    -96(%r14), %xmm10
movdqa  %xmm12, 64(%rdx)
pxor    -80(%r14), %xmm11
movdqa  %xmm13, 80(%rdx)
pxor    0(%r14), %xmm12
movdqa  %xmm14, 96(%rdx)
pxor    16(%r14), %xmm13
movdqa  %xmm15, 112(%rdx)
pxor    32(%r14), %xmm14
pxor    48(%r14), %xmm15 
这种排序试图通过在读和写之间留一个偏移量来考虑Agner Fog的MicroArchitecture.pdf中描述的“缓存组冲突”

另一方面,另一个问题是,尽管程序员知道上面的代码中没有别名,但他们无法将此信息传递给处理器。由于处理器必须考虑读取的值被上述指令中的写入修改的可能性,读取和写入的交错是否会导致延迟?在这种情况下,显然最好先执行所有读取操作,但由于这对于特定的指令序列是不可能的,因此可能先完成所有写入操作才有意义

简言之,这里似乎有很多可能性,而我的直觉不够好,无法感觉到每一种可能性会发生什么


编辑:如果这很重要,那么在考虑中的序列之前的代码要么从内存加载
xmm
寄存器,要么用算术指令计算它们,然后的代码使用这些寄存器将它们写入内存,要么作为算术指令的输入。已写入的内存位置不会立即重新使用<代码>rbx,
rsp
r14
rdx
是必须来自寄存器文件的长寿命寄存器。

我检测了我感兴趣的指令和周围的指令,如下所示,以便在使用指令的上下文中测量不同排序选项所采用的周期数:

#ifdef M    
    push    %rdx
    push    %rax
    push    %rbx
    push    %rcx    
    xorq    %rax, %rax
    cpuid
    rdtsc
    movl    %eax, 256+32+UNUSED_64b
    movl    %edx, 256+32+4+UNUSED_64b
    pop     %rcx        
    pop     %rbx
    pop %rax
    pop %rdx
#endif  
    movdqa  %xmm0, -128+64(%rbx)
    movdqa  %xmm1, -128+80(%rbx)
    movdqa  %xmm2, -128+96(%rbx)
    movdqa  %xmm3, -128+112(%rbx)

    movdqa  %xmm8, 64(%rbx)
    movdqa  %xmm9, 80(%rbx)
    movdqa  %xmm10, 96(%rbx)
    movdqa  %xmm11, 112(%rbx)

    pxor    -128(%rsp), %xmm0   
    pxor    -112(%rsp), %xmm1
    pxor    -96(%rsp), %xmm2    
    pxor    -80(%rsp), %xmm3

    movdqa  %xmm12, 64(%rdx)
    movdqa  %xmm13, 80(%rdx)
    movdqa  %xmm14, 96(%rdx)
    movdqa  %xmm15, 112(%rdx)

    pxor    -128(%r14), %xmm8   
    pxor    -112(%r14), %xmm9
    pxor    -96(%r14), %xmm10
    pxor    -80(%r14), %xmm11

    movdqa  %xmm0, -128+0(%rbx)
    movdqa  %xmm1, -128+16(%rbx)
    movdqa  %xmm2, -128+32(%rbx)
    movdqa  %xmm3, -128+48(%rbx)

    pxor    0(%r14), %xmm12
    pxor    16(%r14), %xmm13
    pxor    32(%r14), %xmm14
    pxor    48(%r14), %xmm15

    movdqa  %xmm8, 0(%rbx)
    movdqa  %xmm9, 16(%rbx)
    movdqa  %xmm10, 32(%rbx)
    movdqa  %xmm11, 48(%rbx)
    movdqa  %xmm12, 0(%rdx)
    movdqa  %xmm13, 16(%rdx)
    movdqa  %xmm14, 32(%rdx)
    movdqa  %xmm15, 48(%rdx)

#ifdef M        
    push    %rdx
    push    %rax
    push    %rbx
    push    %rcx    
    xorq    %rax, %rax
    cpuid   
    rdtsc
    shlq    $32, %rdx
    orq %rdx, %rax
    subq    256+32+UNUSED_64b, %rax
    movq    %rax, 256+32+UNUSED_64b
    pop     %rcx        
    pop     %rbx    
    pop %rax
    pop %rdx
#endif
…
// safe place
    call do_debug
…
#ifdef M
    .cstring
measure:
        .ascii "%15lu\12\0"

        .section        __DATA,__data
    .align 2

count:
    .word 30000

    .text
do_measure:
    decb    count(%rip)
    jnz     done_measure
    pushq   %rax
    pushq   %rax    
    pushq   %rbx
    pushq   %rcx
    pushq   %rdx
    pushq   %rsi
    pushq   %rdi
    pushq   %rbp    
    pushq   %r9
    pushq   %r10
    pushq   %r11
    pushq   %r12
    pushq   %r13
    pushq   %r14
    pushq   %r15

        movq    16*8+UNUSED_64b, %rsi
        leaq    measure(%rip), %rdi
        xorl    %eax, %eax
        call    _applog

    popq    %r15
    popq    %r14
    popq    %r13    
    popq    %r12
    popq    %r11
    popq    %r10    
    popq    %r9
    popq    %rbp    
    popq    %rdi
    popq    %rsi
    popq    %rdx
    popq    %rcx
    popq    %rbx
    popq    %rax
    popq    %rax    
done_measure:
    ret
#endif
我发现上面的序列对于我正在开发的处理器Westmile Xeon W3680来说速度更快。例如,我在问题中提出的顺序很糟糕,可能是因为下面使用
xmm
寄存器的指令与最后设置它们的指令之间的距离太大,迫使它们也遍历寄存器文件,并导致寄存器读取暂停

UNUSED_64b
是堆栈上因对齐约束而可用的空插槽的名称。它必须在堆栈上,因为程序使用线程:

#define UNUSED_64b         16(%rsp) 
256+32+
补偿了探头设置点堆栈的异常使用


此汇编代码适用于Mac OS X。某些细节在另一个类似Unix的系统上可能会有所不同。

这就是为什么使用内部函数编码SIMD通常比编写原始asm更好的原因之一-让编译器为您执行指令调度等-这样您甚至可以针对不同的体系结构重新编译并获得最佳性能每一个的代码。@PaulR我已经读了足够多的非SIMD编译器生成的汇编代码,确信在看起来合理的选择中选择最差的可能仍然比编译器生成的要好。也许,但SIMD是一个完全不同的场景-每个infrinsic通常映射到一条指令,因此代码生成器只需处理指令调度、寄存器分配、窥视孔优化等-通常大多数编译器在这方面做得相当好,因此,对于任何非平凡的东西,我发现内部函数会导致非常紧凑的代码。当然是YMMV。@PaulR对于我正在考虑的代码类型,您有两种选择:处理几个小数组,这有助于编译器使用别名,但意味着它要么耗尽寄存器,要么生成具有大偏移量的9字节指令,这意味着两个指令永远不会在一个周期内执行。或者使用一个大数组,这意味着编译器无法使用别名,并且必须使用源代码的顺序。@PaulR我正在查看的代码是中的
scrypt\u core\u 3way
。如果您认为编译器可以做得更好,请说明如何做。很多人都会感兴趣。