Speech recognition 隐马尔可夫模型(HMM)中的三态电话模型
我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此,该示例基于HMM中语音的声学建模 我从一篇期刊论文中得到了以下示例图片: 图1:声音的3状态HMM/s/ 所以,我的问题是:Speech recognition 隐马尔可夫模型(HMM)中的三态电话模型,speech-recognition,state-machine,hidden-markov-models,Speech Recognition,State Machine,Hidden Markov Models,我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此,该示例基于HMM中语音的声学建模 我从一篇期刊论文中得到了以下示例图片: 图1:声音的3状态HMM/s/ 所以,我的问题是: 三态是什么意思 S1、S2和S3的实际含义是什么?(我知道它是国家,但它代表什么?) 如何在这种HMM状态下表示/s/声音 为什么是3?如果我们有4个、5个或更多的状态,会发生什么 如果/s/的发音只是一个简单的辅音“s/”的发音,那么state和transition的用法是什么 你们
S1表示特征向量在手机S开始时的概率分布,S2在中间,最后为S3。概率分布本质上是特征向量的最可能值(这部分手机的声音如何)和变化(在什么范围内变化)
如何在这种HMM状态下表示/s/声音 S的声音由一个完整的HMM表示,而不仅仅是一个单一的状态 为什么是3?如果我们有4个、5个或更多的状态,会发生什么 在连续语音识别中,电话声学受前一个音素和后一个音素的影响。因此,将每部手机分为三个部分更为精确——开始时从上一部手机过渡,中间稳定,最后过渡到下一部手机。若手机处于隔离和稳定状态,1个状态就足够了。在连续语音中,单个电话也可以使用5种状态,但这并不能大大提高准确性 如果/s/的发音只是一个简单的辅音“s/”的发音,那么state和transition的用法是什么 见上文。转换表示从一种状态移动到另一种状态的概率,本质上它模拟了手机的长度。属于