Audio 沃森语音到文本服务对于哪种类型的音频文件工作得更快？_Audio_Ibm Cloud_Speech To Text_Watson

Audio 沃森语音到文本服务对于哪种类型的音频文件工作得更快？

audio ibm-cloud

Audio 沃森语音到文本服务对于哪种类型的音频文件工作得更快？,audio,ibm-cloud,speech-to-text,watson,Audio,Ibm Cloud,Speech To Text,Watson,我已经尝试了用于MP3和WAV文件的Watson语音到文本API。根据我的观察，与WAV相比，如果以MP3格式提供相同长度的音频所需的时间更少。对于MP3文件，使用不同音频连续调用10次API平均需要8.7秒。另一方面，WAV格式的相同输入平均耗时11.1秒。服务响应时间是否取决于文件类型？建议使用哪种文件类型更快地获得结果？不同的编码格式具有不同的比特率。mp3和OPU是有损压缩格式（尽管在比特率不太低时适合语音识别），因此它们提供最低比特率。如果您需要在网络上推送更少的字节，这通常会更好地延

我已经尝试了用于MP3和WAV文件的Watson语音到文本API。根据我的观察，与WAV相比，如果以MP3格式提供相同长度的音频所需的时间更少。对于MP3文件，使用不同音频连续调用10次API平均需要8.7秒。另一方面，WAV格式的相同输入平均耗时11.1秒。服务响应时间是否取决于文件类型？建议使用哪种文件类型更快地获得结果？

不同的编码格式具有不同的比特率。mp3和OPU是有损压缩格式（尽管在比特率不太低时适合语音识别），因此它们提供最低比特率。如果您需要在网络上推送更少的字节，这通常会更好地延长延迟，因此，根据您的网络速度，您可以在使用低比特率编码时看到更短的处理时间

然而，对于实际的语音识别过程（忽略网络上的数据传输），所有编码都同样快，因为在识别开始之前，所有音频都是未压缩的（如有必要），并转换为目标模型的采样率（宽带或窄带）。

您是如何测量的？这是上传后还是包括网络时间？包括网络时间。考虑网络性能，我们可以考虑2-3秒。在任何情况下，MP3的工作速度都比WAV快。所以我想知道性能是否受文件类型的影响。我这样问是因为mp3文件通常比wav文件小。你检查过这两种情况下传输了多少数据吗？是的。我尝试过同样长度的音频，但mp3文件的大小比wav小。非常感谢。我想这回答了我的问题。这完全取决于需求。如果需要低延迟，则可以使用有损编码格式。如果准确度是最重要的，并且某些延迟是可以接受的，那么必须使用无损编码格式。是的，没错，但是请注意，如果使用可接受的比特率，有损格式（如opus）不会以可测量的方式降低准确度。有了opus，你就可以两全其美，获得最佳的延迟和准确度。关键是选择正确的比特率：这是一个很好的列表，其中的值可以从以下开始：。这也是另一个有趣的资源：非常感谢您的投入！