Model Pocketsphinx构建小词汇量模型_Model_Cmusphinx_Pocketsphinx

Model Pocketsphinx构建小词汇量模型

model

Model Pocketsphinx构建小词汇量模型,model,cmusphinx,pocketsphinx,Model,Cmusphinx,Pocketsphinx,我想用德语为pocketsphinx（.lm）建立一个小词汇表模型，它只能识别0-9之间的德语数字。使用Voxforge de de model，性能非常差（几乎没有识别）。我用一种类似的英语方法尝试了TIDIGTS——它使用一种只包含数字的专门模型。这个能正常工作。因此，我显然需要构建一个只包含我的数字的.lm模型——为此，我已经录制了很多wav文件，并将它们转录成所需的XML格式。但是，当我研究如何做到这一点时，我只得到了一些提示，即如何使用大型词汇表构建语言模型，或者如何使用SRILM构建

我想用德语为pocketsphinx（.lm）建立一个小词汇表模型，它只能识别0-9之间的德语数字。使用Voxforge de de model，性能非常差（几乎没有识别）。我用一种类似的英语方法尝试了TIDIGTS——它使用一种只包含数字的专门模型。这个能正常工作。因此，我显然需要构建一个只包含我的数字的.lm模型——为此，我已经录制了很多wav文件，并将它们转录成所需的XML格式。但是，当我研究如何做到这一点时，我只得到了一些提示，即如何使用大型词汇表构建语言模型，或者如何使用SRILM构建语言模型——由于许可证的限制，这对我来说是完全无用的。那么，如何从wav数据构建LM呢？

好的，我就是这么做的：我使用了一个通用的德国模型（来自voxforge.com的模型），使用sphinx_LM_convert将.LM.bin转换为.LM文件，然后编辑掉除所需数字以外的所有内容。然后，我使用录制的音频材料使用sphinxtrain（使用sphinx_-fe、bw、map adapt）调整模型。现在它相对可靠（约80%的识别率）。另外，我还通过修改语法和字典中的拒绝词（在我的情况下为false）实现了假阳性拒绝，这也高达70%。

Hello Nikolay，不幸的是，我无法在我的设置中使用vosk，原因是我无法透露公司外的安全原因，但无论如何感谢您的提示。我的虚拟现实现在工作得非常完美。通过使用额外的录音，识别率提高到90%左右。诀窍是每个说话人都使用同一个单词的许多录音，你需要大约40个人才能将其提高到相当高的识别率。通过为.lm中的每个音素命名False子句可以防止误报拒绝（我现在的情况是80%）