Speech recognition 使用sphinx4解码ALAW格式的电话呼叫

Speech recognition 使用sphinx4解码ALAW格式的电话呼叫,speech-recognition,sphinx4,Speech Recognition,Sphinx4,我们计划开发一个系统,使用sphinx4将从电话中获得的语音转换为文本。 此类电话的格式为 类型:音频 编解码器:PCM ALAW 频道:单声道 采样率:8kHz比特率:8比特每秒 上面说 如果使用采样率为8KHz的声音文件(电话音频),则需要更改etc/sphinx_train.cfg中的某些值 除此之外,还有其他的更改吗? 是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说 “拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率,但默认情况下,它配置为从MS W

我们计划开发一个系统,使用sphinx4将从电话中获得的语音转换为文本。 此类电话的格式为
类型:音频
编解码器:PCM ALAW
频道:单声道
采样率:8kHz比特率:8比特每秒

上面说

如果使用采样率为8KHz的声音文件(电话音频),则需要更改etc/sphinx_train.cfg中的某些值

除此之外,还有其他的更改吗?
是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说

“拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率,但默认情况下,它配置为从MS WAV格式的16kHz 16位单声道文件开始训练。”

在教程中,它说

本教程与您无关。您需要遵循的正确教程是

除此之外还有其他的改变吗

您根本不需要这样的更改

是否有可能开发一个比特率为8比特/秒的系统,因为在教程中它说

您需要将ALAW格式转换为8khz 16位PCM格式。此转换必须使用外部工具(如sox或其他库)完成。然后解码8khz 16位PCM音频

在sphinx4中正确解码8khz音频使用

  configuration.setSampleRate(8000)