Neural network 理解神经网络和隐马尔可夫模型之间的关系

Neural network 理解神经网络和隐马尔可夫模型之间的关系,neural-network,speech-recognition,hidden-markov-models,Neural Network,Speech Recognition,Hidden Markov Models,我写了几篇关于基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别的论文。在我的研究中,我偶然发现了George E.Dahl,Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法,但是在一些细节上我仍然有困难。如果有人能启发我,我将不胜感激 据我了解,该程序包括三个要素: 输入 音频流被10毫秒的帧分割,并由MFCC处理,MFCC输出一个特征向量 DNN神经网络获取特征向量作为输入,并对特征进行处理,以便每个帧(电话)都是可区分的

我写了几篇关于基于神经网络、高斯混合模型和隐马尔可夫模型的语音识别的论文。在我的研究中,我偶然发现了George E.Dahl,Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法,但是在一些细节上我仍然有困难。如果有人能启发我,我将不胜感激

据我了解,该程序包括三个要素:

  • 输入 音频流被10毫秒的帧分割,并由MFCC处理,MFCC输出一个特征向量

  • DNN神经网络获取特征向量作为输入,并对特征进行处理,以便每个帧(电话)都是可区分的,或者更确切地说是在上下文中给出电话的表示

  • HMM HMM是一个状态模型,其中每个状态代表一个三电话。每一个状态都有许多改变为所有其他状态的概率。 现在,DNN的输出层生成一个特征向量,它告诉当前状态下一步必须更改为哪个状态

  • 我不了解的内容:输出层(DNN)的特征如何映射到状态的概率。首先,HMM是如何创建的?我从哪里得到所有关于概率的信息

    我不需要了解每一个细节,基本概念就足够了。我只需要保证,我对这个过程的基本想法是正确的

    在我的研究中,我偶然发现了George E.Dahl,Dong Yu等人的论文“用于大词汇量语音识别的上下文相关预训练深层神经网络”。。我想我已经理解了所提出的大部分想法,但是在一些细节上我仍然有困难

    最好读一本教科书,而不是一篇研究论文

    因此,每个帧(电话)都是可区分的,或者更确切地说,在上下文中给出了电话的表示

    这句话没有明确的意思,意思是你自己不太清楚。DNN采用帧特征并生成状态的概率

    HMM是一个状态模型,其中每个状态代表一个tri-phone

    不需要三音机。通常有捆绑式三声道,这意味着多个三声道对应于特定的状态

    现在,DNN的输出层生成一个特征向量

    否,DNN生成当前帧的状态概率,但不生成特征向量

    它告诉当前状态下一步必须更改为哪个状态

    否,下一个状态由HMM Viterbi算法根据当前状态和DNN概率选择。DNN本身并不能决定下一个状态

    我不明白的是:输出层(DNN)的特性如何映射到状态的概率

    输出层产生概率。它表示这一帧中的电话A的概率为0.9,而这一帧中的电话B的概率为0.1

    首先,HMM是如何创建的

    与不使用HMM的端到端系统不同,在初始化DNN之前,HMM通常使用HMM/GMM系统和Baum-Welch算法进行训练。因此,首先用Baum Welch训练GMM/HMM,然后训练DNN以改进GMM

    我从哪里得到所有关于概率的信息


    你的最后一个问题很难理解。

    非常感谢,现在这个问题更清楚了。最后一个问题:神经网络的输出层为语言的每一个电话都包含一个神经元(概率)。它通常是上下文相关三声道的概率。