Speech recognition Sphinx 4未能将音频与TranCcript对齐_Speech Recognition_Speech To Text_Cmusphinx

Speech recognition Sphinx 4未能将音频与TranCcript对齐

speech-recognition

Speech recognition Sphinx 4未能将音频与TranCcript对齐,speech-recognition,speech-to-text,cmusphinx,Speech Recognition,Speech To Text,Cmusphinx,我正在使用Sphinx 4进行声学模型自适应，如下所示。下面是我使用bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。我怀疑，由于我的WAV文件没有任何静默板，因此会出现上述错误。对吗？如果不是，错误的原因是什么注意：我录制了一个包含

我正在使用Sphinx 4进行声学模型自适应，如下所示。下面是我使用

bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。

我怀疑，由于我的WAV文件没有任何静默板，因此会出现上述错误。对吗？如果不是，错误的原因是什么

注意：我录制了一个包含所有单词的长音频文件，然后将其剪切成单词。这是因为我的录音设备保存速度慢。这会影响每个较小文件的质量吗

提前感谢

您的音频文件被录制为44.1khz：

 file lisp_0009.wav
 lisp_0009.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 44100 Hz

Sphinxtrain需要16khz的音频，您可以使用sox对音频进行重新采样：

 for f in *.wav; do 
     sox $f -r 16000 $f.new.wav; mv $f.new.wav $f; 
 done

有关输入音频格式的更多信息，请参阅CMUSphinx自适应教程

我怀疑由于我的WAV文件没有任何静音板

这也是一个问题。音频必须在边界上保持约0.25秒的静音

然后把它们切碎成文字

你需要根据话语而不是文字来剪切文件

 for f in *.wav; do 
     sox $f -r 16000 $f.new.wav; mv $f.new.wav $f; 
 done