C++ 为什么vs c++；2010编译器为类似函数生成不同的汇编代码_C++_C_Assembly

C++ 为什么vs c++；2010编译器为类似函数生成不同的汇编代码

c++ c assembly

C++ 为什么vs c++；2010编译器为类似函数生成不同的汇编代码,c++,c,assembly,C++,C,Assembly,所以最近我在考虑strcpy，然后回到K&R，在那里它们将实现显示为 while (*dst++ = *src++) ; 但我错误地将其转录为： while (*dst = *src) { src++; //technically could be ++src on these lines dst++; } 无论如何，这让我思考编译器是否真的会为这两者生成不同的代码。我最初的想法是，它们应该几乎相同，因为src和dst是递增的，但从未使用过。我想编译器应该知道，不要试图在生

所以最近我在考虑strcpy，然后回到K&R，在那里它们将实现显示为

while (*dst++ = *src++) ;

但我错误地将其转录为：

while (*dst = *src)
{
    src++; //technically could be ++src on these lines
    dst++; 
}

无论如何，这让我思考编译器是否真的会为这两者生成不同的代码。我最初的想法是，它们应该几乎相同，因为src和dst是递增的，但从未使用过。我想编译器应该知道，不要试图在生成的机器代码中将它们作为“变量”保留

使用VS 2010 C++ +SP1构建的32位释放模式（/O2），得到了上述两种化身的DIS汇编代码。为了防止函数本身直接引用输入并被内联，我为每个函数创建了一个dll。我省略了所产生的ASM的序言和尾声

    while (*dst++ = *src++)
6EBB1003 8B 55 08             mov         edx,dword ptr [src]     
6EBB1006 8B 45 0C             mov         eax,dword ptr [dst]     
6EBB1009 2B D0                sub         edx,eax                //prepare edx so that edx + eax always points to src     
6EBB100B EB 03                jmp         docopy+10h (6EBB1010h)  
6EBB100D 8D 49 00             lea         ecx,[ecx]              //looks like align padding, never hit this line
6EBB1010 8A 0C 02             mov         cl,byte ptr [edx+eax]  //ptr [edx+ eax] points to char in src  :loop begin
6EBB1013 88 08                mov         byte ptr [eax],cl      //copy char to dst
6EBB1015 40                   inc         eax                    //inc src ptr
6EBB1016 84 C9                test        cl,cl                  // check for 0 (null terminator)
6EBB1018 75 F6                jne         docopy+10h (6EBB1010h)  //if not goto :loop begin
        ;

上面我对代码进行了注释，本质上是一个单循环，只有一个null检查和一个内存拷贝

现在让我们看看我的错误版本：

    while (*dst = *src)
6EBB1003 8B 55 08             mov         edx,dword ptr [src]  
6EBB1006 8A 0A                mov         cl,byte ptr [edx]  
6EBB1008 8B 45 0C             mov         eax,dword ptr [dst]  
6EBB100B 88 08                mov         byte ptr [eax],cl       //copy 0th char to dst
6EBB100D 84 C9                test        cl,cl                   //check for 0
6EBB100F 74 0D                je          docopy+1Eh (6EBB101Eh)  // return if we encounter null terminator
6EBB1011 2B D0                sub         edx,eax  
6EBB1013 8A 4C 02 01          mov         cl,byte ptr [edx+eax+1]  //get +1th char  :loop begin
    {
        src++;
        dst++;
6EBB1017 40                   inc         eax                   
6EBB1018 88 08                mov         byte ptr [eax],cl        //copy above char to dst
6EBB101A 84 C9                test        cl,cl                    //check for 0
6EBB101C 75 F5                jne         docopy+13h (6EBB1013h)   // if not goto :loop begin
    }

在我的版本中，我看到它首先将第0个字符复制到目标，然后检查null，最后进入循环，再次检查null。因此循环基本上保持不变，但现在它处理循环之前的第0个字符。与第一种情况相比，这当然是次优的

我想知道是否有人知道为什么编译器被阻止生成与第一个示例相同（或几乎相同）的代码。这是ms编译器特有的问题还是可能与我的编译器/链接器设置有关

这是完整的代码，2个文件（1个函数替换另一个）

因为在第一个示例中，即使src开始指向空字符，post增量也总是发生。在相同的起始情况下，第二个示例不会增加指针。

当然，编译器还有其他选项。gcc-4.5.1使用-O1生成“复制第一个字节，然后输入循环（如果不是0）”。与-O2和-O3一起，它产生

.LFB0:
    .cfi_startproc
    jmp     .L6             // jump to copy
    .p2align 4,,10
    .p2align 3
.L4:
    addq    $1, %rdi        // increment pointers
    addq    $1, %rsi
.L6:                        // copy
    movzbl  (%rdi), %eax    // get source byte
    testb   %al, %al        // check for 0
    movb    %al, (%rsi)     // move to dest
    jne     .L4             // loop if nonzero
    rep
    ret
    .cfi_endproc

这与K&R循环产生的结果非常相似。我不能说这是否真的更好，但它看起来更好

除了跳入循环外，K&R循环的指令完全相同，只是顺序不同：

.LFB0:
    .cfi_startproc
    .p2align 4,,10
    .p2align 3
.L2:
    movzbl  (%rdi), %eax    // get source byte
    addq    $1, %rdi        // increment source pointer
    movb    %al, (%rsi)     // move byte to dest
    addq    $1, %rsi        // increment dest pointer
    testb   %al, %al        // check for 0
    jne     .L2             // loop if nonzero
    rep
    ret
    .cfi_endproc

您的第二个代码不会“再次检查null”。在第二个版本中，循环体与

edx+eax+1

地址处的字符一起工作（请注意

+1

部分），这将是数字1、2、3等字符。开场白代码使用字符号0。这意味着，正如您所相信的那样，代码不会对同一个字符进行两次检查。那里没有“再次”

第二个代码是一个更加复杂的机器人（循环的第一次迭代有效地从中退出），因为正如已经解释过的，它的功能是不同的。指针的最终值在您的第一个版本和第二个版本之间有所不同。

请发布您开始使用的全部C代码？由于src&dst的声明，可能会有所不同，但我无法知道。您删除的汇编程序前置码是否相同？如果是，则无需粘贴。在这两种情况下，这都是完整的代码，除了尾声和序言。这两个函数的声明都是u declspec（dllexport）void docopy（char*src，char*dst）。这是一种糟糕的编码风格，因为许多读者会将表达式中的“=”视为“==”@ThomasMatthews的拼写错误。这是K&R中给出的

strcpy（）

的实现。你听说过吗？在任何情况下，OP都清楚地表明这不是他的代码行。@Pascal Cuoq:我知道这种模式。仅仅因为它在K&R中并不意味着它是好的风格。看看国际模糊C代码大赛的获奖者。另外，K&R的一些款式节省了印刷费。啊，我明白你的意思，我倾向于接受你的答案。编译器难道不能看到dst和src被递增在这里没有区别吗？因为它们除了在while中的复制和比较上下文中使用外，没有被使用，并且基本上使逻辑与第一个示例相同？理论上，如果

src

和

dst

是本地的，并且在循环后不再使用，那么是的，优化器可以做出这样的假设。也许一个更激进的优化器可以做到这一点。另一方面，优化器没有“其他”版本可供比较。对于第二个源代码，实际上没有什么可以暗示它可以为效率增加“额外”的增量@AShelly我认为你是对的，也许编译器出于某种原因过于谨慎。有趣的是，如果我在gcc-4.4.4上以64位编译，我会看到与你描述的相同的行为。但是，在32位（-m32-O3）中，它会生成“复制第一个字节，如果不是0，则进入循环”。可能更多64位寄存器的可用性在这里会有所不同？很好。事实上，对于-m32，4.5.1还复制循环外的第一个字节，并使用

%eax

作为偏移量，

movzbl 1（%ecx，%eax），%edx；movb%dl，1%（ebx，%eax）；添加1，%eax

而不是像在64位模式中那样直接递增指针。您可以检查VS编译器生成的64位代码吗？如果其行为类似，则很可能是架构问题。只需在VS上检查64位，它仍会执行“复制第一个字节，如果不是0，则进入循环”。

.LFB0:
    .cfi_startproc
    .p2align 4,,10
    .p2align 3
.L2:
    movzbl  (%rdi), %eax    // get source byte
    addq    $1, %rdi        // increment source pointer
    movb    %al, (%rsi)     // move byte to dest
    addq    $1, %rsi        // increment dest pointer
    testb   %al, %al        // check for 0
    jne     .L2             // loop if nonzero
    rep
    ret
    .cfi_endproc