Speech recognition Sphinx 4未能将音频与TranCcript对齐
我正在使用Sphinx 4进行声学模型自适应,如下所示。 下面是我使用Speech recognition Sphinx 4未能将音频与TranCcript对齐,speech-recognition,speech-to-text,cmusphinx,Speech Recognition,Speech To Text,Cmusphinx,我正在使用Sphinx 4进行声学模型自适应,如下所示。 下面是我使用bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。 我怀疑,由于我的WAV文件没有任何静默板,因此会出现上述错误。对吗?如果不是,错误的原因是什么 注意:我录制了一个包含
bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。
我怀疑,由于我的WAV文件没有任何静默板,因此会出现上述错误。对吗?如果不是,错误的原因是什么
注意:我录制了一个包含所有单词的长音频文件,然后将其剪切成单词。这是因为我的录音设备保存速度慢。这会影响每个较小文件的质量吗
提前感谢您的音频文件被录制为44.1khz:
file lisp_0009.wav
lisp_0009.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 44100 Hz
Sphinxtrain需要16khz的音频,您可以使用sox对音频进行重新采样:
for f in *.wav; do
sox $f -r 16000 $f.new.wav; mv $f.new.wav $f;
done
有关输入音频格式的更多信息,请参阅CMUSphinx自适应教程
我怀疑由于我的WAV文件没有任何静音板
这也是一个问题。音频必须在边界上保持约0.25秒的静音
然后把它们切碎成文字
你需要根据话语而不是文字来剪切文件
for f in *.wav; do
sox $f -r 16000 $f.new.wav; mv $f.new.wav $f;
done