如何在ARM设备上使Tensorflow Lite更快（运行量化tflite mobilenet v1型号）_Tensorflow_Arm_Tensorflow Lite

如何在ARM设备上使Tensorflow Lite更快（运行量化tflite mobilenet v1型号）

tensorflow arm

如何在ARM设备上使Tensorflow Lite更快（运行量化tflite mobilenet v1型号）,tensorflow,arm,tensorflow-lite,Tensorflow,Arm,Tensorflow Lite,我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是，推断时间低至~50ms。问题是：我们能在ARM设备上做得更快吗 mobilenet v1中的两个主要操作是CONV_2D和depthway_CONV_2D。对于CONV_2D我们有gemmlowp库的支持，该库使用内联NEON汇编和多线程。但是，对于DEPTHWISE\u CONV\u 2D而言，它仅使用霓虹灯内部电路。tensorflow团队将来会用NEON assembly来实现它吗有没有其他方法可以减少推断时间？任何想

我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是，推断时间低至~50ms。问题是：我们能在ARM设备上做得更快吗

mobilenet v1中的两个主要操作是

CONV_2D

和

depthway_CONV_2D

。对于

CONV_2D

我们有

gemmlowp

库的支持，该库使用内联NEON汇编和多线程。但是，对于

DEPTHWISE\u CONV\u 2D

而言，它仅使用霓虹灯内部电路。tensorflow团队将来会用NEON assembly来实现它吗

有没有其他方法可以减少推断时间？任何想法都非常感谢