Streaming 谷歌语音文本转换中的25秒延迟

Streaming 谷歌语音文本转换中的25秒延迟,streaming,speech-to-text,google-cloud-speech,Streaming,Speech To Text,Google Cloud Speech,这是我在使用谷歌语音文本引擎时遇到的一个问题。我目前正在以32kB的数据块实时传输16位/16千赫音频。但在发送音频和接收抄本之间平均有25秒的延迟,这与实时抄本的目的背道而驰 为什么会有这么高的延迟?Google Speech to Text建议使用100毫秒的帧大小来最小化延迟 32kB*(8位/1字节)*(1个样本/16位)*(1秒/16000个样本)=1秒 因此,请尝试发送3.2kB块。这将平均延迟从25秒降低到了~4秒。如果对你有效,你可以接受你自己的好答案吗?你需要等待24小时才能接

这是我在使用谷歌语音文本引擎时遇到的一个问题。我目前正在以32kB的数据块实时传输16位/16千赫音频。但在发送音频和接收抄本之间平均有25秒的延迟,这与实时抄本的目的背道而驰

为什么会有这么高的延迟?

Google Speech to Text建议使用100毫秒的帧大小来最小化延迟

32kB*(8位/1字节)*(1个样本/16位)*(1秒/16000个样本)=1秒


因此,请尝试发送3.2kB块。这将平均延迟从25秒降低到了~4秒。

如果对你有效,你可以接受你自己的好答案吗?你需要等待24小时才能接受你自己的答案。很好的Jacob,对不起,我不知道:)你能详细说明一下这个公式是如何工作的吗?我面临同样的问题,但采样率为44100。使用相同的公式,但将最后一项更改为1/44100。然后做代数运算,算出右边有多少kB会给你100毫秒。谢谢!这些值是千字节还是千位?kB=千字节。这就是你要问的吗?