C++ 加快TF服务推断时间_C++_Tensorflow_Tensorflow Serving_Bert Language Model

C++ 加快TF服务推断时间

c++ tensorflow

C++ 加快TF服务推断时间,c++,tensorflow,tensorflow-serving,bert-language-model,C++,Tensorflow,Tensorflow Serving,Bert Language Model,我有一个模型，它接受2个3d张量，输出一个4d张量。该型号的protobuf版本约为750MB。在Windows 10机上建立/运行C++推理可执行文件，并使用CPU。 >P>我有一个C++代码，它使用TysFrace.DLL每次加载模型并进行前向传递。（如本文所述）。运行时间约为55到70秒，其中一个主要部分是模型加载和图形构建时间（约为25秒）为了加快运行时间，移动到使用TF-Serve-docker（like）为模型提供服务。现在，整个运行时间减少到20到40秒之间。这里向前传球的时

我有一个模型，它接受2个3d张量，输出一个4d张量。该型号的protobuf版本约为750MB。在Windows 10机上建立/运行C++推理可执行文件，并使用CPU。 >P>我有一个C++代码，它使用TysFrace.DLL每次加载模型并进行前向传递。（如本文所述）。运行时间约为55到70秒，其中一个主要部分是模型加载和图形构建时间（约为25秒）

为了加快运行时间，移动到使用TF-Serve-docker（like）为模型提供服务。现在，整个运行时间减少到20到40秒之间。这里向前传球的时间大约是8秒

有没有办法进一步加快这一速度（服务器-客户机方法）？比如说，通过使用更多的CPU核

我知道将模型参数量化为f16或int将加快运行速度。还有其他想法吗

对于CPU上大小相似的模型，这是观察到的运行时吗？喂，伯特（小的和/或大的）

谢谢