Speech recognition 使用sphinx4解码ALAW格式的电话呼叫
我们计划开发一个系统,使用sphinx4将从电话中获得的语音转换为文本。 此类电话的格式为Speech recognition 使用sphinx4解码ALAW格式的电话呼叫,speech-recognition,sphinx4,Speech Recognition,Sphinx4,我们计划开发一个系统,使用sphinx4将从电话中获得的语音转换为文本。 此类电话的格式为 类型:音频 编解码器:PCM ALAW 频道:单声道 采样率:8kHz比特率:8比特每秒 上面说 如果使用采样率为8KHz的声音文件(电话音频),则需要更改etc/sphinx_train.cfg中的某些值 除此之外,还有其他的更改吗? 是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说 “拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率,但默认情况下,它配置为从MS W
类型:音频
编解码器:PCM ALAW
频道:单声道
采样率:8kHz比特率:8比特每秒 上面说 如果使用采样率为8KHz的声音文件(电话音频),则需要更改etc/sphinx_train.cfg中的某些值 除此之外,还有其他的更改吗?
是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说 “拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率,但默认情况下,它配置为从MS WAV格式的16kHz 16位单声道文件开始训练。” 在教程中,它说 本教程与您无关。您需要遵循的正确教程是 除此之外还有其他的改变吗 您根本不需要这样的更改 是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说 您需要将ALAW格式转换为8khz 16位PCM格式。此转换必须使用外部工具(如sox或其他库)完成。然后解码8khz 16位PCM音频 在sphinx4中正确解码8khz音频使用
configuration.setSampleRate(8000)