C++ 确定一个代码块需要多少时钟周期_C++_Performance_Optimization_Cpu_Performance Testing_X86

C++ 确定一个代码块需要多少时钟周期

c++ performance optimization x86

C++ 确定一个代码块需要多少时钟周期,c++,performance,optimization,cpu,performance-testing,x86,C++,Performance,Optimization,Cpu,Performance Testing,X86,有没有一种工具或方法可以告诉我一个代码块使用了多少时钟周期？手工调试和计数对于庞大的代码块来说是一件痛苦的事情。在x86上，它是我所知道的唯一的静态分析器。它假定零缓存未命中和其他各种简化，但有些有用我认为它还假设除了最后一个分支之外，其他所有分支都没有被执行，因此对于具有执行的分支的循环体来说，它可能没有用处 IACA在其数据中也有一些错误，例如，它认为shld在Sandybridge上速度较慢。它确实知道一些不明显的事情，比如自从Haswell的更新后，它基本上被放弃了。Skylake

有没有一种工具或方法可以告诉我一个代码块使用了多少时钟周期？手工调试和计数对于庞大的代码块来说是一件痛苦的事情。

在x86上，它是我所知道的唯一的静态分析器。它假定零缓存未命中和其他各种简化，但有些有用

我认为它还假设除了最后一个分支之外，其他所有分支都没有被执行，因此对于具有执行的分支的循环体来说，它可能没有用处

IACA在其数据中也有一些错误，例如，它认为

shld

在Sandybridge上速度较慢。它确实知道一些不明显的事情，比如

自从Haswell的更新后，它基本上被放弃了。Skylake可以在比Haswell更多的执行端口上运行一些指令（请参阅），但管道非常相似，因此结果应该相当有用。另请参见tag wiki上的其他链接，包括Intel的优化手册，以帮助您理解输出

我喜欢使用这个

iaca.sh

包装脚本将

-64

设置为默认值（我可以用

-32

覆盖）。我忘了我写了多少（可能只是结尾的

if（$#>=1））

位）以及LD#u LIBRARY_PATH部分的来源

iaca.sh

：

#!/bin/bash
myname=$(realpath "$0")
mypath=$(dirname "$myname")
ld_lib="$LD_LIBRARY_PATH"
app_loc="../lib"

if [ "$LD_LIBRARY_PATH" = "" ]
then
export LD_LIBRARY_PATH="$mypath/$app_loc"
else
export LD_LIBRARY_PATH="$mypath/$app_loc:$LD_LIBRARY_PATH"
fi

if (($# >= 1));then
    exec "$mypath/iaca" -64 "$@"
else
    exec "$mypath/iaca"  # there is no -help, just run with no args for help output
fi

示例：就地前缀和，来自：

请注意，总uop计数不是与前端、ROB和4-wide发行/退役宽度相关的融合域uop。它统计未使用的域UOP，这对执行单元（和调度程序）很重要。不过这有点傻，因为在未使用的域中，uop需要哪个端口最重要，而不是有多少端口

这不是最好的例子，因为它在Haswell的shuffle端口上有点瓶颈。它确实显示了IACA如何显示mov消除、微融合存储和宏融合比较和分支

当有选择时，UOP在端口之间的分布相当随意。不要期望它能与真正的硬件相匹配。我认为IACA根本没有为ROB/调度程序建模，真的。这一限制和其他限制已在之前的SO问题中讨论过。尝试在IACA上搜索，因为它是一个相当独特的字符串。

在x86上，它是我所知道的唯一静态分析器。它假定零缓存未命中和其他各种简化，但有些有用