Arm 每周期操作臂皮质CPU？_Arm_Cpu_Hardware

Arm 每周期操作臂皮质CPU？

arm

Arm 每周期操作臂皮质CPU？,arm,cpu,hardware,Arm,Cpu,Hardware,我需要ARM处理器每个周期可以执行的操作数，特别是Cortex-A7、Cortex-A9和Cortex-A15。我在网上找不到任何东西多谢各位编辑：我需要它来计算理论峰值性能。看看最常见的地方这里有：我还没有研究整数，但对于每个周期的单浮运算和双浮运算，这是我迄今为止提出的 Cortex-A7： 0.5 DP触发器/周期：每四个周期标量VMLA.F64。 1.0 DP触发器/周期：标量VADD.F64每个周期。 2.0 SP触发器/周期：标量VMLA.F32每个周期。 2.0 SP触发器

我需要ARM处理器每个周期可以执行的操作数，特别是Cortex-A7、Cortex-A9和Cortex-A15。我在网上找不到任何东西

多谢各位

编辑：我需要它来计算理论峰值性能。

看看最常见的地方

这里有：

我还没有研究整数，但对于每个周期的单浮运算和双浮运算，这是我迄今为止提出的

Cortex-A7：

0.5 DP触发器/周期：每四个周期标量VMLA.F64。 1.0 DP触发器/周期：标量VADD.F64每个周期。 2.0 SP触发器/周期：标量VMLA.F32每个周期。 2.0 SP触发器/周期：每隔一个周期2宽VMLA.F32。皮质-A9：

1.5 DP触发器/周期：每隔一个周期标量VMLA.F64+标量VADD.F64。 4.0 SP触发器/周期：每个周期2宽VMLA.F32。皮质-A15：

2.0 DP触发器/周期：每个周期标量VMLA.F64或VFMA.F64。 8.0 SP触发器/周期：每个周期4宽VMLA.F32或VFMA.F32。

一个有趣的观察是，氖浮点不比VCOP快，对于CORTEX-A7。

你认为操作是什么？这对CordX-A7引用1 DP触发器/周期有点误导。一般来说，当人们在没有进一步上下文的情况下谈论失败时，其意图实际上是50/50的乘法和加法混合，因为这就是GEMM所做的，离FFT不远，尽管好的FFT通常有轻微的加法偏差。@StephenCanon，好的观点，我对此进行了辩论。我实际上有VMLA.F64，但删除了它。“让我把它放回去。”斯蒂芬卡农，我想知道我是否得出了一个错误的结论。我在运行代码时，我在我的Raspberry Pi2上使用Neon，在GCC4.6 raspian和GCC5.2 arch上都获得了大约两倍的速度。我还没有对计时做过可靠的测试。作者的计时数字有很大的误差，但似乎是两倍，这意味着Neon比Cortex-A7上的VFP更快。请注意，我在十月份之前几乎没有时间进行大量的聚会，所以在那之前我不会有太多的回应。