Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sql-server-2005/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Speech recognition Sphinx 4未能将音频与TranCcript对齐_Speech Recognition_Speech To Text_Cmusphinx - Fatal编程技术网

Speech recognition Sphinx 4未能将音频与TranCcript对齐

Speech recognition Sphinx 4未能将音频与TranCcript对齐,speech-recognition,speech-to-text,cmusphinx,Speech Recognition,Speech To Text,Cmusphinx,我正在使用Sphinx 4进行声学模型自适应,如下所示。 下面是我使用bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。 我怀疑,由于我的WAV文件没有任何静默板,因此会出现上述错误。对吗?如果不是,错误的原因是什么 注意:我录制了一个包含

我正在使用Sphinx 4进行声学模型自适应,如下所示。 下面是我使用
bw-hmmdir wsj-moddeffn wsj/mdef-ts2cbfn.cont时得到的结果-feat 1s_c_d_dd-cmn current-agc none-dictfn vn.dic-ctlfn lisp.fileids-lsnfn lisp.transcription-accumdir。

我怀疑,由于我的WAV文件没有任何静默板,因此会出现上述错误。对吗?如果不是,错误的原因是什么

注意:我录制了一个包含所有单词的长音频文件,然后将其剪切成单词。这是因为我的录音设备保存速度慢。这会影响每个较小文件的质量吗


提前感谢

您的音频文件被录制为44.1khz:

 file lisp_0009.wav
 lisp_0009.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 44100 Hz
Sphinxtrain需要16khz的音频,您可以使用sox对音频进行重新采样:

 for f in *.wav; do 
     sox $f -r 16000 $f.new.wav; mv $f.new.wav $f; 
 done
有关输入音频格式的更多信息,请参阅CMUSphinx自适应教程

我怀疑由于我的WAV文件没有任何静音板

这也是一个问题。音频必须在边界上保持约0.25秒的静音

然后把它们切碎成文字

你需要根据话语而不是文字来剪切文件

 for f in *.wav; do 
     sox $f -r 16000 $f.new.wav; mv $f.new.wav $f; 
 done