Speech recognition 如何利用隐马尔可夫模型进行孤立词识别
我正在尝试使用HMM构建一个非常基本的单词识别器,也就是说,给定一个单词(不超过一个)的发音,我需要对其进行分类。到目前为止,我已经提取了音素级特征(MFCC)。更具体地说,对于每个音频信号,我有一个(410 x 1)特征向量。但现在我有点被卡住了:Speech recognition 如何利用隐马尔可夫模型进行孤立词识别,speech-recognition,hidden-markov-models,Speech Recognition,Hidden Markov Models,我正在尝试使用HMM构建一个非常基本的单词识别器,也就是说,给定一个单词(不超过一个)的发音,我需要对其进行分类。到目前为止,我已经提取了音素级特征(MFCC)。更具体地说,对于每个音频信号,我有一个(410 x 1)特征向量。但现在我有点被卡住了: 我真的不明白如何将这些特性映射到HMM。我知道每个类都需要单独的HMM 我不太确定代码本中应该有多少个码字 PS:我已经从Lawrence R.Rabiner(以及其他一些人)那里了解到了,但是这个想法仍然有些模糊。好吧,你可以对每个单词使用HMM
PS:我已经从Lawrence R.Rabiner(以及其他一些人)那里了解到了,但是这个想法仍然有些模糊。好吧,你可以对每个单词使用HMM。如果你想识别两个单词“早上好”,你至少需要2个HMM,每个HMM代表早上好。 使用Viterbi估计此HMM的参数 或者baum_welch(在rabiner的论文中) 如果你有那两个HMM, 现在只需计算总帧概率P(W | MFCCs,HMM | u GOOD)和 P(W | MFCC,嗯|早上),哪个更好(更大) 查阅HTK手册