Speech recognition 如何在kaldi平台中添加新单词或词汇?
我正在尝试创建一个Speech recognition 如何在kaldi平台中添加新单词或词汇?,speech-recognition,models,voice-recognition,toolkit,Speech Recognition,Models,Voice Recognition,Toolkit,我正在尝试创建一个ASR系统,现有的预训练模型可用作示例。我被困在一个地方,在那里如何添加新的单词到训练过的模型中,以便下次它能正确返回单词;某种机器学习的概念。任何想法都会有帮助。您可能需要两件事: Lexicon:尝试在数据文件夹中查找类似于Lexicon.txt的内容,在其中添加单词和相应的电话序列,如: speech s p iy ch the dh ax the dh iy 语言模型:在您的数据文件夹中找到类似于XXX.lm的内容,以1-gram的概率添加您的单词,如: \data
ASR系统
,现有的预训练模型可用作示例。我被困在一个地方,在那里如何添加新的单词到训练过的模型中,以便下次它能正确返回单词;某种机器学习的概念。任何想法都会有帮助。您可能需要两件事:
Lexicon.txt的内容,在其中添加单词和相应的电话序列,如:
speech s p iy ch
the dh ax
the dh iy
XXX.lm
的内容,以1-gram的概率添加您的单词,如:
\data\
ngram 1=200
ngram 2=4000
...
\1-grams
-7.3241 the
...
HCLG.fst
注意:语言中的数字会使语音识别的结果有所不同,您需要选择一个合适的数字,或者使用toolkit
srilm
根据语料库的文本生成它。这个答案是正确的,您知道如何将unigram添加到ARPA文件吗?手动?