Speech recognition 从头开始创建声学模型或调整现有声学模型

Speech recognition 从头开始创建声学模型或调整现有声学模型,speech-recognition,cmusphinx,pocketsphinx,Speech Recognition,Cmusphinx,Pocketsphinx,当我尝试为一个特定的说话人使用俄语和阿拉伯语混合语音来实现语音识别系统时,我遇到了一些问题。 当使用说话人15分钟的语音来调整声学模型时,错误率太高(它从6-10个单词中识别正确的1个)。 我所做的: 1.我已经把阿拉伯语的单词转录成俄语,并把它们译成英语 字典。 2.我试过ru4sphinx项目的旧型号msu_ru_zero.cd_cont_2000 以及来自cmusphinx-ru-5.2(俄罗斯最新声学模型)的新模型 此时此刻的语言)。 3.我使用了我从我研究领域的文本中制作的词典和语言模

当我尝试为一个特定的说话人使用俄语和阿拉伯语混合语音来实现语音识别系统时,我遇到了一些问题。 当使用说话人15分钟的语音来调整声学模型时,错误率太高(它从6-10个单词中识别正确的1个)。 我所做的: 1.我已经把阿拉伯语的单词转录成俄语,并把它们译成英语 字典。 2.我试过ru4sphinx项目的旧型号msu_ru_zero.cd_cont_2000 以及来自cmusphinx-ru-5.2(俄罗斯最新声学模型)的新模型 此时此刻的语言)。 3.我使用了我从我研究领域的文本中制作的词典和语言模型。俄文utf-8中有近200MB的文本。但这本词典中只有一小部分阿拉伯语词汇

只有少数(40个中的4个)音频曲目因“将音频与转录本对齐”而未能进行改编,其他曲目则顺利通过。 同样在bw命令使用后的报告中,有220个senone不在自适应音频曲目中

如何降低此混合语言的错误率? 或者我需要从头开始为这个1扬声器创建声学模型?
我根本不需要翻译阿拉伯语,只要俄语,如果阿拉伯语默认为一些常用术语(如-unk-),那也不错。

我发现我的字典有问题。 是因为
text2wfreq