Audio 沃森语音到文本服务对于哪种类型的音频文件工作得更快?

Audio 沃森语音到文本服务对于哪种类型的音频文件工作得更快?,audio,ibm-cloud,speech-to-text,watson,Audio,Ibm Cloud,Speech To Text,Watson,我已经尝试了用于MP3和WAV文件的Watson语音到文本API。根据我的观察,与WAV相比,如果以MP3格式提供相同长度的音频所需的时间更少。对于MP3文件,使用不同音频连续调用10次API平均需要8.7秒。另一方面,WAV格式的相同输入平均耗时11.1秒。服务响应时间是否取决于文件类型?建议使用哪种文件类型更快地获得结果?不同的编码格式具有不同的比特率。mp3和OPU是有损压缩格式(尽管在比特率不太低时适合语音识别),因此它们提供最低比特率。如果您需要在网络上推送更少的字节,这通常会更好地延

我已经尝试了用于MP3和WAV文件的Watson语音到文本API。根据我的观察,与WAV相比,如果以MP3格式提供相同长度的音频所需的时间更少。对于MP3文件,使用不同音频连续调用10次API平均需要8.7秒。另一方面,WAV格式的相同输入平均耗时11.1秒。服务响应时间是否取决于文件类型?建议使用哪种文件类型更快地获得结果?

不同的编码格式具有不同的比特率。mp3和OPU是有损压缩格式(尽管在比特率不太低时适合语音识别),因此它们提供最低比特率。如果您需要在网络上推送更少的字节,这通常会更好地延长延迟,因此,根据您的网络速度,您可以在使用低比特率编码时看到更短的处理时间


然而,对于实际的语音识别过程(忽略网络上的数据传输),所有编码都同样快,因为在识别开始之前,所有音频都是未压缩的(如有必要),并转换为目标模型的采样率(宽带或窄带)。

您是如何测量的?这是上传后还是包括网络时间?包括网络时间。考虑网络性能,我们可以考虑2-3秒。在任何情况下,MP3的工作速度都比WAV快。所以我想知道性能是否受文件类型的影响。我这样问是因为mp3文件通常比wav文件小。你检查过这两种情况下传输了多少数据吗?是的。我尝试过同样长度的音频,但mp3文件的大小比wav小。非常感谢。我想这回答了我的问题。这完全取决于需求。如果需要低延迟,则可以使用有损编码格式。如果准确度是最重要的,并且某些延迟是可以接受的,那么必须使用无损编码格式。是的,没错,但是请注意,如果使用可接受的比特率,有损格式(如opus)不会以可测量的方式降低准确度。有了opus,你就可以两全其美,获得最佳的延迟和准确度。关键是选择正确的比特率:这是一个很好的列表,其中的值可以从以下开始:。这也是另一个有趣的资源:非常感谢您的投入!