Speech recognition 在改编过程中未能将音频与转录本对齐_Speech Recognition_Cmusphinx

Speech recognition 在改编过程中未能将音频与转录本对齐

speech-recognition

Speech recognition 在改编过程中未能将音频与转录本对齐,speech-recognition,cmusphinx,Speech Recognition,Cmusphinx,我正在尝试将声学模型与Sphinx4一起使用，并使用我自己的一些转录数据。我用于自适应的数据是8kHz，因此我更改了原始声学模型（使用16kHz音频）中的params文件，因为我在整个自适应过程中都使用它： -lowerf 200.00 -upperf 3500.00 -nfilt 31 -ncep 13 -transform legacy -round_filters yes -unit_area yes -remove_dc no -feat 1s_c_d_dd 特征提取似乎工作得很好，但

我正在尝试将声学模型与Sphinx4一起使用，并使用我自己的一些转录数据。我用于自适应的数据是8kHz，因此我更改了原始声学模型（使用16kHz音频）中的params文件，因为我在整个自适应过程中都使用它：

-lowerf 200.00
-upperf 3500.00
-nfilt 31
-ncep 13
-transform legacy
-round_filters yes
-unit_area yes
-remove_dc no
-feat 1s_c_d_dd

特征提取似乎工作得很好，但Baum-Welch会导致许多错误。Baum-Welch命令行参数如下所示，仅供参考：

-hmmdir ../hub4opensrc.cd_continuous_8gau -moddeffn ../hub4opensrc.cd_continuous_8gau/mdef.txt -ts2cbfn .cont. -feat 1s_c_d_dd -cmn current -agc none -dictfn ../adaptationData.dict -ctlfn ../adaptationData.listoffiles -lsnfn ../adaptationData.transcription -accumdir .

INFO: cmn.c(175): CMN:  9.69  0.13 -0.11 -0.13 -0.19 -0.23 -0.25 -0.19 -0.22 -0.19 -0.10 -0.09 -0.07 
ERROR: "backward.c", line 421: Failed to align audio to trancript: final state of the search is not reached
ERROR: "baum_welch.c", line 324: sn74tiCEB6F7DE7672F ignored
utt>   233       sn74tiCEB6F7DE7672F  177    0   112 12  utt 0.000x 0.000e upd 0.000x 0.000e fwd 0.000x 0.000e bwd 0.000x 0.000e gau 0.000x 0.000e rsts 0.000x 0.000e rstf 0.000x 0.000e rstu 0.000x 0.000e

每个文件的错误都相同（其中一个如下所示）：

我很困惑为什么算法没有完成，我想知道如果你以前也遇到过这个问题，是否有人对如何克服这个问题有任何建议

Hub4是16khz的声学模型，您无法对其进行调整以识别8khz音频。您需要适应窄带声学模型。例如，您可以从下载中调整communicator continuous model或从sphinx4中调整wsj_8khz model。

查看此链接，输出不是来自sphinx4。您用于自适应的命令是什么？@AlexanderSolovets我正在使用baum welch可执行文件（在windows上）作为模型自适应过程的一部分。我想不一定是狮身人面像X4——它实际上是用pocketsphinx打包的。谢谢@Nikolay。我抓起了wsj_8khz模型，并开始了适应过程，将其作为我的基础声学模型。仍然看到同样的错误，但还没有时间调查。在接下来的两天里，我将进行更多的调查。好的，如果您有一些具体的问题，请随时提供数据来重现您的问题。我能够使用wsj_8kHz模型成功地调整我想要调整的一小部分文件（235个文件中的6个）。我想知道这是否是VAD算法（）的问题？无论如何，我已经在目录中发布了两个文件（一个成功，一个失败）和所有必要的信息：如果你有任何建议，请随时告诉我。谢谢看看你的档案，我发现你准备得不好。我怀疑你是否应该首先关注适应，看来适当的清理可能是更重要的事情。首先，您需要确保您的文件没有零能量区域和最终确定白噪声。如果您希望应用语音识别，则必须使用外部软件对其进行过滤。