Speech recognition wav vs opus:语音到文本的转录质量
我正在使用IBM Watson的语音到文本服务为几个8kHz的电话音频文件生成转录本。我试过相同文件的wav和opus版本。在使用opus格式时,我没有看到成绩单的质量有任何大的下降。我正在考虑只存储opus格式的文件,以减少存储空间需求和减少文件传输时间。一般来说,使用wav格式更高质量的成绩单更好吗?如果我们使用opus格式,转录本的质量会有任何已知的降低吗?只有您知道您的用例当前和未来的需求,所以很难提供一个直接的答案。话虽如此,我个人认为作品的质量非常好 以下是一些关于Opus编解码器质量的链接,您可能会感兴趣:Speech recognition wav vs opus:语音到文本的转录质量,speech-recognition,ibm-cloud,speech-to-text,ibm-watson,Speech Recognition,Ibm Cloud,Speech To Text,Ibm Watson,我正在使用IBM Watson的语音到文本服务为几个8kHz的电话音频文件生成转录本。我试过相同文件的wav和opus版本。在使用opus格式时,我没有看到成绩单的质量有任何大的下降。我正在考虑只存储opus格式的文件,以减少存储空间需求和减少文件传输时间。一般来说,使用wav格式更高质量的成绩单更好吗?如果我们使用opus格式,转录本的质量会有任何已知的降低吗?只有您知道您的用例当前和未来的需求,所以很难提供一个直接的答案。话虽如此,我个人认为作品的质量非常好 以下是一些关于Opus编解码器质
只有您知道用例的当前和未来需求,所以很难提供一个直接的答案。话虽如此,我个人认为作品的质量非常好 以下是一些关于Opus编解码器质量的链接,您可能会感兴趣:
如果比特率足够,OPUS不应降低识别精度。您应该使用不会降低精度的最低比特率,这可以通过实验确定,尝试不同的比特率并计算字错误率 或者,您可以使用FLAC,它是无损的,与未压缩的wav相比,通常提供5倍的压缩因子
最后,请记住,您不希望采样率高于16kHz,因为这对识别没有帮助,并且会大大增加存储。如果比特率足够,OPUS不应降低识别精度。您应该使用不会降低精度的最低比特率,这可以通过实验确定,尝试不同的比特率并计算字错误率 或者,您可以使用FLAC,它是无损的,与未压缩的wav相比,通常提供5倍的压缩因子 最后,请记住,您不希望采样率高于16kHz,因为这对识别没有帮助,并且会大大增加存储空间