C 这种无分支的黑客真的更快吗？_C

C 这种无分支的黑客真的更快吗？

C 这种无分支的黑客真的更快吗？,c,C,我试图在基于Cortex-m的计算机上钳制一个介于-127和127之间的值我有两个相互竞争的函数，一个使用条件句，另一个使用我发现的无分支hack //使用条件语句 int-clamp（int-val）{return（（val>127）？127：（val>31； val+=-127； val-=127； val&=val>>31； val+=127；返回val； } 现在我知道，在某些情况下，这些方法中的一种可能比另一种更快，反之亦然，但一般来说，使用无分支技术是否值得，因为我使用哪种方法

我试图在基于Cortex-m的计算机上钳制一个介于-127和127之间的值

我有两个相互竞争的函数，一个使用条件句，另一个使用我发现的无分支hack

//使用条件语句
int-clamp（int-val）{return（（val>127）？127：（val<-127）？-127:val）；}
//使用无分支黑客
内夹（内夹）{
val-=-127；
val&=（~val）>>31；
val+=-127；
val-=127；
val&=val>>31；
val+=127；
返回val；
}

现在我知道，在某些情况下，这些方法中的一种可能比另一种更快，反之亦然，但一般来说，使用无分支技术是否值得，因为我使用哪种方法对我来说并不重要，它们在我的情况下都会很好地工作

关于微控制器的一点背景知识，它是一个基于ARM的微控制器，运行速度为90 MIPS，具有3级管道，获取、解码和执行，似乎有一些分支预测器，但我无法挖掘细节

ARM代码（GCC 4.6.3中带有

-O3

）：

拇指代码：

clamp1:
    mvn r3, #126
    cmp r0, r3
    it  lt
    movlt   r0, r3
    cmp r0, #127
    it  ge
    movge   r0, #127
    bx  lr

clamp2:
    adds    r0, r0, #127
    mvns    r3, r0
    and r0, r0, r3, asr #31
    subs    r0, r0, #254
    and r0, r0, r0, asr #31
    adds    r0, r0, #127
    bx  lr

由于ARM的条件执行设计，两者都是无分支的。我敢打赌，它们在性能上基本相当。

需要了解的是，在分支指令方面，ARM和x86体系结构是非常不同的。跳转清除了管道，这可能导致大量时钟周期的加速，只是为了在吞吐量方面“回到原来的位置”

引用我前几天下载的pdf（第14页，共页）

有条件执行

大多数指令集只允许有条件地执行分支
然而，通过重用条件评估硬件，ARM有效地增加了指令数量
所有指令都包含一个条件字段，该字段确定CPU是否将执行这些指令
未执行指令占用1个周期。 –仍需完成循环，以便获取和解码以下指令
这消除了对许多分支的需要，这些分支会使管道停止运行（需要3个循环才能重新加注）
允许非常密集的内联代码，没有分支
不执行多条条件指令的时间代价通常小于否则需要的分支或子例程调用的开销

clamp1:
    mvn r3, #126
    cmp r0, r3
    movlt   r0, r3
    cmp r0, #127
    movge   r0, #127
    bx  lr

clamp2:
    add r0, r0, #127
    mvn r3, r0
    and r0, r0, r3, asr #31
    sub r0, r0, #254
    and r0, r0, r0, asr #31
    add r0, r0, #127
    bx  lr

clamp1:
    mvn r3, #126
    cmp r0, r3
    it  lt
    movlt   r0, r3
    cmp r0, #127
    it  ge
    movge   r0, #127
    bx  lr

clamp2:
    adds    r0, r0, #127
    mvns    r3, r0
    and r0, r0, r3, asr #31
    subs    r0, r0, #254
    and r0, r0, r0, asr #31
    adds    r0, r0, #127
    bx  lr