Speech recognition 隐马尔可夫模型（HMM）中的三态电话模型_Speech Recognition_State Machine_Hidden Markov Models

Speech recognition 隐马尔可夫模型（HMM）中的三态电话模型

speech-recognition

Speech recognition 隐马尔可夫模型（HMM）中的三态电话模型,speech-recognition,state-machine,hidden-markov-models,Speech Recognition,State Machine,Hidden Markov Models,我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此，该示例基于HMM中语音的声学建模我从一篇期刊论文中得到了以下示例图片：图1：声音的3状态HMM/s/ 所以，我的问题是：三态是什么意思 S1、S2和S3的实际含义是什么？（我知道它是国家，但它代表什么？）如何在这种HMM状态下表示/s/声音为什么是3？如果我们有4个、5个或更多的状态，会发生什么如果/s/的发音只是一个简单的辅音“s/”的发音，那么state和transition的用法是什么你们

我想问一下HMM中三态电话模型的含义。这个案例是基于语音识别系统中的HMM理论。因此，该示例基于HMM中语音的声学建模

我从一篇期刊论文中得到了以下示例图片：

图1：声音的3状态HMM/s/

所以，我的问题是：

三态是什么意思

S1、S2和S3的实际含义是什么？（我知道它是国家，但它代表什么？）

如何在这种HMM状态下表示/s/声音

为什么是3？如果我们有4个、5个或更多的状态，会发生什么

如果/s/的发音只是一个简单的辅音“s/”的发音，那么state和transition的用法是什么

你们有这个理论的简单解释吗

多谢各位

尼克

三态是什么意思

描述手机S的模型由树状态（S1、S2和S3）组成

S1、S2和S3的实际含义是什么？（我知道它是国家，但它代表什么？）

S1表示特征向量在手机S开始时的概率分布，S2在中间，最后为S3。概率分布本质上是特征向量的最可能值（这部分手机的声音如何）和变化（在什么范围内变化）

如何在这种HMM状态下表示/s/声音

S的声音由一个完整的HMM表示，而不仅仅是一个单一的状态

为什么是3？如果我们有4个、5个或更多的状态，会发生什么

在连续语音识别中，电话声学受前一个音素和后一个音素的影响。因此，将每部手机分为三个部分更为精确——开始时从上一部手机过渡，中间稳定，最后过渡到下一部手机。若手机处于隔离和稳定状态，1个状态就足够了。在连续语音中，单个电话也可以使用5种状态，但这并不能大大提高准确性

如果/s/的发音只是一个简单的辅音“s/”的发音，那么state和transition的用法是什么

见上文。转换表示从一种状态移动到另一种状态的概率，本质上它模拟了手机的长度。

属于