如何在ARM设备上使Tensorflow Lite更快(运行量化tflite mobilenet v1型号)

如何在ARM设备上使Tensorflow Lite更快(运行量化tflite mobilenet v1型号),tensorflow,arm,tensorflow-lite,Tensorflow,Arm,Tensorflow Lite,我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是,推断时间低至~50ms。问题是:我们能在ARM设备上做得更快吗 mobilenet v1中的两个主要操作是CONV_2D和depthway_CONV_2D。对于CONV_2D我们有gemmlowp库的支持,该库使用内联NEON汇编和多线程。但是,对于DEPTHWISE\u CONV\u 2D而言,它仅使用霓虹灯内部电路。tensorflow团队将来会用NEON assembly来实现它吗 有没有其他方法可以减少推断时间?任何想

我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是,推断时间低至~50ms。问题是:我们能在ARM设备上做得更快吗

mobilenet v1中的两个主要操作是
CONV_2D
depthway_CONV_2D
。对于
CONV_2D
我们有
gemmlowp
库的支持,该库使用内联NEON汇编和多线程。但是,对于
DEPTHWISE\u CONV\u 2D
而言,它仅使用霓虹灯内部电路。tensorflow团队将来会用NEON assembly来实现它吗

有没有其他方法可以减少推断时间?任何想法都非常感谢