如何用Java编写正确的微基准测试?

如何用Java编写正确的微基准测试?,java,jvm,benchmarking,jvm-hotspot,microbenchmark,Java,Jvm,Benchmarking,Jvm Hotspot,Microbenchmark,如何用Java编写和运行正确的微基准测试 我正在寻找一些代码示例和注释,说明需要考虑的各种问题 示例:基准测试应该测量时间/迭代还是迭代/时间,为什么 相关:Java基准测试的重要内容是: 在对JIT进行计时之前,先运行几次代码来预热JIT 确保运行足够长的时间,以便能够在几秒钟内测量结果,或者更好地在几十秒钟内测量结果 虽然您不能在迭代之间调用System.gc,但最好在测试之间运行它,这样每个测试都会有一个干净的内存空间来使用。是的,gc更多的是一种暗示而不是保证,但根据我的经验,它很可能真

如何用Java编写和运行正确的微基准测试

我正在寻找一些代码示例和注释,说明需要考虑的各种问题

示例:基准测试应该测量时间/迭代还是迭代/时间,为什么


相关:

Java基准测试的重要内容是:

在对JIT进行计时之前,先运行几次代码来预热JIT 确保运行足够长的时间,以便能够在几秒钟内测量结果,或者更好地在几十秒钟内测量结果 虽然您不能在迭代之间调用System.gc,但最好在测试之间运行它,这样每个测试都会有一个干净的内存空间来使用。是的,gc更多的是一种暗示而不是保证,但根据我的经验,它很可能真的会进行垃圾收集。 我喜欢显示迭代次数和时间,以及可以缩放的时间/迭代分数,以便最佳算法的分数为1.0,而其他算法的分数相对较高。这意味着您可以在较长的时间内运行所有算法,改变迭代次数和时间,但仍然可以获得可比的结果。
我正在写关于.NET中基准测试框架设计的博客。我有一个很好的例子,也许能给你一些想法——当然,不是所有的东西都合适,但其中一些可能是合适的。

用Java编写微基准有很多可能的陷阱

首先:你必须计算各种各样的随机事件:垃圾收集,操作系统对文件的缓存效果,CPU对内存的缓存效果,IO等等

第二:在很短的时间间隔内,你不能相信测量时间的准确性

第三:JVM在执行时优化代码。因此,同一JVM实例中的不同运行速度将越来越快


我的建议是:让基准测试运行几秒钟,这比运行时间超过毫秒更可靠。预热JVM意味着至少运行一次基准测试,而不测量JVM是否可以运行优化。运行你的基准测试多次,也许5次,然后取中间值。在一个新的JVM实例中运行每个微基准测试,为每个基准测试调用新Java,否则JVM的优化效果会影响以后运行的测试。不要执行在预热阶段未执行的操作,因为这可能会触发类加载和重新编译。

如果您试图比较两种算法,请至少为每种算法执行两个基准测试,交替顺序。i、 e:

for(i=1..n)
  alg1();
for(i=1..n)
  alg2();
for(i=1..n)
  alg2();
for(i=1..n)
  alg1();
我发现在不同的过程中,同一算法的运行时有时会有5-10%的显著差异


另外,请确保n非常大,以便每个循环的运行时间至少为10秒左右。迭代次数越多,基准时间中的数字就越重要,数据也就越可靠。

确保以某种方式使用在基准代码中计算的结果。否则,您的代码可以被优化掉

基准测试应该测量时间/迭代还是迭代/时间,为什么

这取决于你想测试什么


如果您对延迟感兴趣,请使用时间/迭代;如果您对吞吐量感兴趣,请使用迭代/时间。

有关编写微基准测试的提示:

规则0:阅读一篇关于JVM和微观基准测试的著名论文。一个好的是。不要对微观基准期望过高;它们只测量有限范围的JVM性能特征

规则1:始终包括一个预热阶段,该阶段将一直运行测试内核,足以在计时阶段之前触发所有初始化和编译。在热身阶段,较少的迭代是可以的。经验法则是数万次内部循环迭代

规则2:始终使用-XX:+printcomilation、-verbose:gc等运行,这样您就可以验证编译器和JVM的其他部分在计时阶段没有执行意外的工作

规则2.1:在计时和预热阶段的开始和结束时打印消息,以便您可以验证计时阶段没有规则2的输出

规则3:注意-client和-server以及OSR和常规编译之间的区别。-XX:+printcomilation标志报告OSR编译,并使用at符号表示非初始入口点,例如:麻烦$1::run@2 41字节。如果您追求最佳性能,则更喜欢服务器而不是客户端,更喜欢常规而不是OSR

规则4:注意初始化效果。不要在计时阶段第一次打印,因为打印会加载和初始化类。不要在预热阶段或最终报告阶段之外加载新类,除非您专门测试类加载,并且在这种情况下只加载测试类。规则2是你对抗这些影响的第一道防线

规则5:注意去优化和重新编译的效果。不要吃鳕鱼 这是在计时阶段第一次使用e路径,因为编译器可能会丢弃并重新编译代码,这是基于之前的乐观假设,即根本不会使用该路径。规则2是你对抗这些影响的第一道防线

规则6:使用适当的工具来了解编译器的想法,并期望对它生成的代码感到惊讶。在形成关于是什么使事情更快或更慢的理论之前,自己检查代码

规则7:减少测量中的噪音。在一台安静的机器上运行基准测试,并运行几次,丢弃异常值。使用Xbatch将编译器与应用程序序列化,并考虑设置-xx:CICOMPIReCal计数=1,以防止编译器与自身并行运行。尽量减少GC开销,将Xmxlarge设置为足够大的等于Xms,并在可用时使用


规则8:将库用于基准测试,因为它可能更有效,并且已经为此目的进行了调试。比如,或者

Java微基准测试-确定不同平台上计算机系统的比较性能特征所需的控制任务。可以用来指导优化决策和比较不同的Java实现。

我知道这个问题已经被标记为已回答,但我想提到两个库,它们可以帮助我们编写微基准测试

入门教程

入门教程


还应该注意,在比较不同的实现时,分析微基准测试的结果可能也很重要。因此,应作出适当的调整

这是因为在基准测试的大部分运行过程中,实现A可能比实现B更快。但A也可能有更高的扩展,因此,与B相比,衡量A的性能优势没有任何意义

因此,正确地编写和运行微基准测试,以及正确地分析它也很重要。

是OpenJDK的最新添加,由Oracle的一些性能工程师编写。当然值得一看

jmh是一个Java工具,用于构建、运行和分析用Java和其他针对JVM的语言编写的nano/micro/macro基准

非常有趣的信息隐藏在里面

另见:

.
除此之外,我还要注意以下几点:

final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");
对于某些CPU,例如带有TurboBoost的Intel Core i5系列,当前使用的内核温度和数量以及它们的利用率会影响时钟速度。由于CPU是动态计时的,这可能会影响结果。例如,如果您有一个单线程应用程序,TurboBoost的最大时钟速度高于使用所有内核的应用程序。因此,这可能会干扰某些系统上单线程和多线程性能的比较。请记住,温度和电压也会影响涡轮频率保持的时间

也许你可以直接控制一个更重要的方面:确保你测量的是正确的东西!例如,如果您使用System.nanoTime对特定代码位进行基准测试,请将对赋值的调用放在合理的位置,以避免测量您不感兴趣的内容。例如,不要做:

long startTime = System.nanoTime();
//code here...
System.out.println("Code took "+(System.nanoTime()-startTime)+"nano seconds");
问题是当代码完成时,您不能立即获得结束时间。相反,请尝试以下操作:

final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");

当然,更改顺序会影响运行时。JVM优化和缓存效果将在这里发挥作用。更好的方法是“预热”JVM优化,在不同的JVM中进行多次运行并对每个测试进行基准测试。这也是一篇有趣的文章:另外,除非您对+15毫秒或-15毫秒的精度满意,否则不要使用System.currentTimeMillis,这在大多数OS+JVM组合中是典型的。改用System.nanoTime。javaOne的一些文章:应该注意,System.nanoTime不能保证比System.currentTimeMillis更精确。它只能保证至少同样准确。但是,它通常更精确。必须使用System.nanoTime而不是System.currentTimeMillis的主要原因是前者保证是单调递增的。减去两次currentTimeMillis调用返回的值实际上可能会产生负面结果,可能是因为某些NTP守护进程调整了系统时间。有关一些相关信息,请参阅几分钟前的[此问题][1]。编辑:对不起,这不是答案。我应该发表评论的。[1] :Java 9可能会为微基准测试提供一些功能:@Raedwald我认为JEP的目标是在JDK代码中添加一些微基准测试,但我不认为jmh将包含在JDK中…@Raedwald Hello来自未来。请参阅:和重复的问题。似乎只是对JVM+硬件进行基准测试,而不是任意的Jav
一个代码。+1它可以被添加为公认答案的规则8:规则8:因为很多事情可能会出错,所以你可能应该使用现有的库,而不是自己尝试去做@Pangea jmh现在可能优于Caliper,另请参见:次要挑剔:IMO,因此每个测试得到的结果应该是每个测试可能得到的结果,因为前者给人的印象是调用gc总是释放未使用的内存。@SanjayT.Sharma:好吧,目的是它确实做到了。虽然没有严格的保证,但这实际上是一个非常强烈的暗示。将进行编辑以更清晰。我不同意调用System.gc。这只是一个暗示,仅此而已。甚至它也不可能有什么作用。你永远不应该叫它。这是编程,不是艺术。@gyabraham:是的,这是一个暗示——但我观察到这是一个通常被接受的暗示。所以,如果您不喜欢使用System.gc,您建议如何在一个测试中最小化由于在以前的测试中创建的对象而导致的垃圾收集?我是务实的,不是教条的。@Gyaraham:我不知道你说的大撤退是什么意思。你能详细说明一下吗?你有没有一个能带来更好结果的建议?我明确地说,这不是一个保证…另请参阅这篇博文:有关开始使用JMH的详细信息。仅供参考,这是一个基于此项目的提案。但是可能会在以后添加。是的,不要在定时区域内执行不相关的工作很重要,但是您的第一个示例仍然可以。只有一个对println的调用,而不是单独的标题行或其他东西,并且System.nanoTime必须作为为该调用构造字符串arg的第一步进行计算。对于第一个编译器来说,没有什么是第二个编译器做不到的,而且两个编译器都不鼓励他们在记录停止时间之前做额外的工作。