Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Arm 每周期操作臂皮质CPU?_Arm_Cpu_Hardware - Fatal编程技术网

Arm 每周期操作臂皮质CPU?

Arm 每周期操作臂皮质CPU?,arm,cpu,hardware,Arm,Cpu,Hardware,我需要ARM处理器每个周期可以执行的操作数,特别是Cortex-A7、Cortex-A9和Cortex-A15。 我在网上找不到任何东西 多谢各位 编辑:我需要它来计算理论峰值性能。看看最常见的地方 这里有:我还没有研究整数,但对于每个周期的单浮运算和双浮运算,这是我迄今为止提出的 Cortex-A7: 0.5 DP触发器/周期:每四个周期标量VMLA.F64。 1.0 DP触发器/周期:标量VADD.F64每个周期。 2.0 SP触发器/周期:标量VMLA.F32每个周期。 2.0 SP触发器

我需要ARM处理器每个周期可以执行的操作数,特别是Cortex-A7、Cortex-A9和Cortex-A15。 我在网上找不到任何东西

多谢各位


编辑:我需要它来计算理论峰值性能。

看看最常见的地方


这里有:

我还没有研究整数,但对于每个周期的单浮运算和双浮运算,这是我迄今为止提出的

Cortex-A7:

0.5 DP触发器/周期:每四个周期标量VMLA.F64。 1.0 DP触发器/周期:标量VADD.F64每个周期。 2.0 SP触发器/周期:标量VMLA.F32每个周期。 2.0 SP触发器/周期:每隔一个周期2宽VMLA.F32。 皮质-A9:

1.5 DP触发器/周期:每隔一个周期标量VMLA.F64+标量VADD.F64。 4.0 SP触发器/周期:每个周期2宽VMLA.F32。 皮质-A15:

2.0 DP触发器/周期:每个周期标量VMLA.F64或VFMA.F64。 8.0 SP触发器/周期:每个周期4宽VMLA.F32或VFMA.F32。

一个有趣的观察是,氖浮点不比VCOP快,对于CORTEX-A7。

你认为操作是什么?这对CordX-A7引用1 DP触发器/周期有点误导。一般来说,当人们在没有进一步上下文的情况下谈论失败时,其意图实际上是50/50的乘法和加法混合,因为这就是GEMM所做的,离FFT不远,尽管好的FFT通常有轻微的加法偏差。@StephenCanon,好的观点,我对此进行了辩论。我实际上有VMLA.F64,但删除了它。“让我把它放回去。”斯蒂芬卡农,我想知道我是否得出了一个错误的结论。我在运行代码时,我在我的Raspberry Pi2上使用Neon,在GCC4.6 raspian和GCC5.2 arch上都获得了大约两倍的速度。我还没有对计时做过可靠的测试。作者的计时数字有很大的误差,但似乎是两倍,这意味着Neon比Cortex-A7上的VFP更快。请注意,我在十月份之前几乎没有时间进行大量的聚会,所以在那之前我不会有太多的回应。