Speech recognition 如何在kaldi平台中添加新单词或词汇?

Speech recognition 如何在kaldi平台中添加新单词或词汇?,speech-recognition,models,voice-recognition,toolkit,Speech Recognition,Models,Voice Recognition,Toolkit,我正在尝试创建一个ASR系统,现有的预训练模型可用作示例。我被困在一个地方,在那里如何添加新的单词到训练过的模型中,以便下次它能正确返回单词;某种机器学习的概念。任何想法都会有帮助。您可能需要两件事: Lexicon:尝试在数据文件夹中查找类似于Lexicon.txt的内容,在其中添加单词和相应的电话序列,如: speech s p iy ch the dh ax the dh iy 语言模型:在您的数据文件夹中找到类似于XXX.lm的内容,以1-gram的概率添加您的单词,如: \data

我正在尝试创建一个
ASR系统
,现有的预训练模型可用作示例。我被困在一个地方,在那里如何添加新的单词到训练过的模型中,以便下次它能正确返回单词;某种机器学习的概念。任何想法都会有帮助。

您可能需要两件事:

  • Lexicon:尝试在数据文件夹中查找类似于
    Lexicon.txt的内容,在其中添加单词和相应的电话序列,如:

    speech s p iy ch
    the dh ax
    the dh iy
    
  • 语言模型:在您的数据文件夹中找到类似于
    XXX.lm
    的内容,以1-gram的概率添加您的单词,如:

    \data\
    ngram 1=200
    ngram 2=4000
    ...
    
    \1-grams
    -7.3241 the
    ...
    
  • 在此之后,根据这两个新文件再次制作解码器
    HCLG.fst


    注意:语言中的数字会使语音识别的结果有所不同,您需要选择一个合适的数字,或者使用toolkit
    srilm
    根据语料库的文本生成它。

    这个答案是正确的,您知道如何将unigram添加到ARPA文件吗?手动?