Speech recognition 隐马尔可夫模型(HMM)中的三态电话模型

Speech recognition 隐马尔可夫模型(HMM)中的三态电话模型,speech-recognition,state-machine,hidden-markov-models,Speech Recognition,State Machine,Hidden Markov Models,我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此,该示例基于HMM中语音的声学建模 我从一篇期刊论文中得到了以下示例图片: 图1:声音的3状态HMM/s/ 所以,我的问题是: 三态是什么意思 S1、S2和S3的实际含义是什么?(我知道它是国家,但它代表什么?) 如何在这种HMM状态下表示/s/声音 为什么是3?如果我们有4个、5个或更多的状态,会发生什么 如果/s/的发音只是一个简单的辅音“s/”的发音,那么state和transition的用法是什么 你们

我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此,该示例基于HMM中语音的声学建模

我从一篇期刊论文中得到了以下示例图片:

图1:声音的3状态HMM/s/

所以,我的问题是:

  • 三态是什么意思
  • S1、S2和S3的实际含义是什么?(我知道它是国家,但它代表什么?)
  • 如何在这种HMM状态下表示/s/声音
  • 为什么是3?如果我们有4个、5个或更多的状态,会发生什么
  • 如果/s/的发音只是一个简单的辅音“s/”的发音,那么state和transition的用法是什么
  • 你们有这个理论的简单解释吗

    多谢各位

    尼克

    三态是什么意思

    描述手机S的模型由树状态(S1、S2和S3)组成

    S1、S2和S3的实际含义是什么?(我知道它是国家,但它代表什么?)

    S1表示特征向量在手机S开始时的概率分布,S2在中间,最后为S3。概率分布本质上是特征向量的最可能值(这部分手机的声音如何)和变化(在什么范围内变化)

    如何在这种HMM状态下表示/s/声音

    S的声音由一个完整的HMM表示,而不仅仅是一个单一的状态

    为什么是3?如果我们有4个、5个或更多的状态,会发生什么

    在连续语音识别中,电话声学受前一个音素和后一个音素的影响。因此,将每部手机分为三个部分更为精确——开始时从上一部手机过渡,中间稳定,最后过渡到下一部手机。若手机处于隔离和稳定状态,1个状态就足够了。在连续语音中,单个电话也可以使用5种状态,但这并不能大大提高准确性

    如果/s/的发音只是一个简单的辅音“s/”的发音,那么state和transition的用法是什么

    见上文。转换表示从一种状态移动到另一种状态的概率,本质上它模拟了手机的长度。

    属于