Speech recognition 在改编过程中未能将音频与转录本对齐

Speech recognition 在改编过程中未能将音频与转录本对齐,speech-recognition,cmusphinx,Speech Recognition,Cmusphinx,我正在尝试将声学模型与Sphinx4一起使用,并使用我自己的一些转录数据。我用于自适应的数据是8kHz,因此我更改了原始声学模型(使用16kHz音频)中的params文件,因为我在整个自适应过程中都使用它: -lowerf 200.00 -upperf 3500.00 -nfilt 31 -ncep 13 -transform legacy -round_filters yes -unit_area yes -remove_dc no -feat 1s_c_d_dd 特征提取似乎工作得很好,但

我正在尝试将声学模型与Sphinx4一起使用,并使用我自己的一些转录数据。我用于自适应的数据是8kHz,因此我更改了原始声学模型(使用16kHz音频)中的params文件,因为我在整个自适应过程中都使用它:

-lowerf 200.00
-upperf 3500.00
-nfilt 31
-ncep 13
-transform legacy
-round_filters yes
-unit_area yes
-remove_dc no
-feat 1s_c_d_dd
特征提取似乎工作得很好,但Baum-Welch会导致许多错误。Baum-Welch命令行参数如下所示,仅供参考:

-hmmdir ../hub4opensrc.cd_continuous_8gau -moddeffn ../hub4opensrc.cd_continuous_8gau/mdef.txt -ts2cbfn .cont. -feat 1s_c_d_dd -cmn current -agc none -dictfn ../adaptationData.dict -ctlfn ../adaptationData.listoffiles -lsnfn ../adaptationData.transcription -accumdir .
INFO: cmn.c(175): CMN:  9.69  0.13 -0.11 -0.13 -0.19 -0.23 -0.25 -0.19 -0.22 -0.19 -0.10 -0.09 -0.07 
ERROR: "backward.c", line 421: Failed to align audio to trancript: final state of the search is not reached
ERROR: "baum_welch.c", line 324: sn74tiCEB6F7DE7672F ignored
utt>   233       sn74tiCEB6F7DE7672F  177    0   112 12  utt 0.000x 0.000e upd 0.000x 0.000e fwd 0.000x 0.000e bwd 0.000x 0.000e gau 0.000x 0.000e rsts 0.000x 0.000e rstf 0.000x 0.000e rstu 0.000x 0.000e
每个文件的错误都相同(其中一个如下所示):


我很困惑为什么算法没有完成,我想知道如果你以前也遇到过这个问题,是否有人对如何克服这个问题有任何建议

Hub4是16khz的声学模型,您无法对其进行调整以识别8khz音频。您需要适应窄带声学模型。例如,您可以从下载中调整communicator continuous model或从sphinx4中调整wsj_8khz model。

查看此链接,输出不是来自sphinx4。您用于自适应的命令是什么?@AlexanderSolovets我正在使用baum welch可执行文件(在windows上)作为模型自适应过程的一部分。我想不一定是狮身人面像X4——它实际上是用pocketsphinx打包的。谢谢@Nikolay。我抓起了wsj_8khz模型,并开始了适应过程,将其作为我的基础声学模型。仍然看到同样的错误,但还没有时间调查。在接下来的两天里,我将进行更多的调查。好的,如果您有一些具体的问题,请随时提供数据来重现您的问题。我能够使用wsj_8kHz模型成功地调整我想要调整的一小部分文件(235个文件中的6个)。我想知道这是否是VAD算法()的问题?无论如何,我已经在目录中发布了两个文件(一个成功,一个失败)和所有必要的信息:如果你有任何建议,请随时告诉我。谢谢看看你的档案,我发现你准备得不好。我怀疑你是否应该首先关注适应,看来适当的清理可能是更重要的事情。首先,您需要确保您的文件没有零能量区域和最终确定白噪声。如果您希望应用语音识别,则必须使用外部软件对其进行过滤。