Speech recognition 如何在kaldi平台中添加新单词或词汇？_Speech Recognition_Models_Voice Recognition_Toolkit

Speech recognition 如何在kaldi平台中添加新单词或词汇？

speech-recognition

Speech recognition 如何在kaldi平台中添加新单词或词汇？,speech-recognition,models,voice-recognition,toolkit,Speech Recognition,Models,Voice Recognition,Toolkit,我正在尝试创建一个ASR系统，现有的预训练模型可用作示例。我被困在一个地方，在那里如何添加新的单词到训练过的模型中，以便下次它能正确返回单词；某种机器学习的概念。任何想法都会有帮助。您可能需要两件事： Lexicon：尝试在数据文件夹中查找类似于Lexicon.txt的内容，在其中添加单词和相应的电话序列，如： speech s p iy ch the dh ax the dh iy 语言模型：在您的数据文件夹中找到类似于XXX.lm的内容，以1-gram的概率添加您的单词，如： \data

我正在尝试创建一个

ASR系统

，现有的预训练模型可用作示例。我被困在一个地方，在那里如何添加新的单词到训练过的模型中，以便下次它能正确返回单词；某种机器学习的概念。任何想法都会有帮助。

您可能需要两件事：

Lexicon：尝试在数据文件夹中查找类似于

Lexicon.txt的内容，在其中添加单词和相应的电话序列，如：
speech s p iy ch
the dh ax
the dh iy


语言模型：在您的数据文件夹中找到类似于XXX.lm
的内容，以1-gram的概率添加您的单词，如：
\data\
ngram 1=200
ngram 2=4000
...

\1-grams
-7.3241 the
...


在此之后，根据这两个新文件再次制作解码器HCLG.fst

注意：语言中的数字会使语音识别的结果有所不同，您需要选择一个合适的数字，或者使用toolkitsrilm
根据语料库的文本生成它。
这个答案是正确的，您知道如何将unigram添加到ARPA文件吗？手动？