Neural network 理解神经网络和隐马尔可夫模型之间的关系_Neural Network_Speech Recognition_Hidden Markov Models

Neural network 理解神经网络和隐马尔可夫模型之间的关系

neural-network speech-recognition

Neural network 理解神经网络和隐马尔可夫模型之间的关系,neural-network,speech-recognition,hidden-markov-models,Neural Network,Speech Recognition,Hidden Markov Models,我写了几篇关于基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别的论文。在我的研究中，我偶然发现了George E.Dahl，Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法，但是在一些细节上我仍然有困难。如果有人能启发我，我将不胜感激据我了解，该程序包括三个要素：输入音频流被10毫秒的帧分割，并由MFCC处理，MFCC输出一个特征向量 DNN神经网络获取特征向量作为输入，并对特征进行处理，以便每个帧（电话）都是可区分的

我写了几篇关于基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别的论文。在我的研究中，我偶然发现了George E.Dahl，Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法，但是在一些细节上我仍然有困难。如果有人能启发我，我将不胜感激
据我了解，该程序包括三个要素：

输入音频流被10毫秒的帧分割，并由MFCC处理，MFCC输出一个特征向量

DNN神经网络获取特征向量作为输入，并对特征进行处理，以便每个帧（电话）都是可区分的，或者更确切地说是在上下文中给出电话的表示

HMM HMM是一个状态模型，其中每个状态代表一个三电话。每一个状态都有许多改变为所有其他状态的概率。现在，DNN的输出层生成一个特征向量，它告诉当前状态下一步必须更改为哪个状态
我不了解的内容：输出层（DNN）的特征如何映射到状态的概率。首先，HMM是如何创建的？我从哪里得到所有关于概率的信息
我不需要了解每一个细节，基本概念就足够了。我只需要保证，我对这个过程的基本想法是正确的
在我的研究中，我偶然发现了George E.Dahl，Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法，但是在一些细节上我仍然有困难
最好读一本教科书，而不是一篇研究论文
因此，每个帧（电话）都是可区分的，或者更确切地说，在上下文中给出了电话的表示
这句话没有明确的意思，意思是你自己不太清楚。DNN采用帧特征并生成状态的概率
HMM是一个状态模型，其中每个状态代表一个tri-phone
不需要三音机。通常有捆绑式三声道，这意味着多个三声道对应于特定的状态
现在，DNN的输出层生成一个特征向量
否，DNN生成当前帧的状态概率，但不生成特征向量
它告诉当前状态下一步必须更改为哪个状态
否，下一个状态由HMM Viterbi算法根据当前状态和DNN概率选择。DNN本身并不能决定下一个状态
我不明白的是：输出层（DNN）的特性如何映射到状态的概率
输出层产生概率。它表示这一帧中的电话A的概率为0.9，而这一帧中的电话B的概率为0.1
首先，HMM是如何创建的
与不使用HMM的端到端系统不同，在初始化DNN之前，HMM通常使用HMM/GMM系统和Baum-Welch算法进行训练。因此，首先用Baum Welch训练GMM/HMM，然后训练DNN以改进GMM
我从哪里得到所有关于概率的信息

你的最后一个问题很难理解。
非常感谢，现在这个问题更清楚了。最后一个问题：神经网络的输出层为语言的每一个电话都包含一个神经元（概率）。它通常是上下文相关三声道的概率。