Speech recognition 使用sphinx4解码ALAW格式的电话呼叫_Speech Recognition_Sphinx4

Speech recognition 使用sphinx4解码ALAW格式的电话呼叫

speech-recognition

Speech recognition 使用sphinx4解码ALAW格式的电话呼叫,speech-recognition,sphinx4,Speech Recognition,Sphinx4,我们计划开发一个系统，使用sphinx4将从电话中获得的语音转换为文本。此类电话的格式为类型：音频编解码器：PCM ALAW 频道：单声道采样率：8kHz比特率：8比特每秒上面说如果使用采样率为8KHz的声音文件（电话音频），则需要更改etc/sphinx_train.cfg中的某些值除此之外，还有其他的更改吗？是否有可能开发一个比特率为8比特/秒的系统，因为在教程中它说 “拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率，但默认情况下，它配置为从MS W

我们计划开发一个系统，使用sphinx4将从电话中获得的语音转换为文本。此类电话的格式为
类型：音频
编解码器：PCM ALAW
频道：单声道
采样率：8kHz比特率：8比特每秒

上面说

如果使用采样率为8KHz的声音文件（电话音频），则需要更改etc/sphinx_train.cfg中的某些值

除此之外，还有其他的更改吗？
是否有可能开发一个比特率为8比特/秒的系统，因为在教程中它说

“拥有特定格式的音频文件非常重要。Sphinxtrain确实支持多种采样率，但默认情况下，它配置为从MS WAV格式的16kHz 16位单声道文件开始训练。”

在教程中，它说

本教程与您无关。您需要遵循的正确教程是

除此之外还有其他的改变吗

您根本不需要这样的更改

是否有可能开发一个比特率为8比特/秒的系统，因为在教程中它说

您需要将ALAW格式转换为8khz 16位PCM格式。此转换必须使用外部工具（如sox或其他库）完成。然后解码8khz 16位PCM音频

在sphinx4中正确解码8khz音频使用

  configuration.setSampleRate(8000)