Python 为什么TensorFlow Lite模型在动态范围量化时在延迟方面表现出色，而在全整数量化时表现不佳？_Python_Tensorflow_Tensorflow Lite

Python 为什么TensorFlow Lite模型在动态范围量化时在延迟方面表现出色，而在全整数量化时表现不佳？

python tensorflow

Python 为什么TensorFlow Lite模型在动态范围量化时在延迟方面表现出色，而在全整数量化时表现不佳？,python,tensorflow,tensorflow-lite,Python,Tensorflow,Tensorflow Lite,我目前正在测试用TensorFlow Lite转换的CNN的推断延迟。我正在测试两个具有相同体系结构的CNN（我正在使用Windows操作系统的笔记本电脑上测试它们）：第一个模型：使用TFLite优化的TensorFlow模型及其权重量化（使用Python TFLite API转换并使用TensorFlow.lite.Optimize.DEFAULT量化）。是的第二个模型：使用TFLite优化的TensorFlow模型及其权重和激活量化（使用Python TFLite api转换并使用T

我目前正在测试用TensorFlow Lite转换的CNN的推断延迟。我正在测试两个具有相同体系结构的CNN（我正在使用Windows操作系统的笔记本电脑上测试它们）：

第一个模型：使用TFLite优化的TensorFlow模型及其权重量化（使用Python TFLite API转换并使用TensorFlow.lite.Optimize.DEFAULT量化）。是的
第二个模型：使用TFLite优化的TensorFlow模型及其权重和激活量化（使用Python TFLite api转换并使用TensorFlow.lite.Optimize.DEFAULT+量化，给出一个代表性的数据集）。是的

事实上，第一个模型（动态范围量化）在时间方面给出了非常好的结果。然而，第二个模型（全整数量化）在时间方面的性能非常差（大约比第一个模型慢10倍）

为什么量化激活会使推理过程变得如此缓慢？

CNN中的激活比权重多得多。激活必须在不同层之间重新量化。在第二种情况下，这两种情况都可能导致时间过长。但是请记住，第二种情况应该会像在嵌入式处理器中一样为您提供更好的精度和更低的缓冲内存需求