Neural network i向量和d向量之间的差异_Neural Network_Artificial Intelligence_Speech Recognition_Deep Learning

Neural network i向量和d向量之间的差异

neural-network artificial-intelligence speech-recognition deep-learning

Neural network i向量和d向量之间的差异,neural-network,artificial-intelligence,speech-recognition,deep-learning,Neural Network,Artificial Intelligence,Speech Recognition,Deep Learning,有人能解释一下i向量和d向量的区别吗？关于它们，我所知道的只是它们在说话人/语音识别系统中被广泛使用，它们是一种表示说话人信息的模板，但我不知道主要区别。我不知道如何用普通语言正确描述d向量，但我可以帮点忙身份向量，或i-vector，是特定语音片段的频谱特征，通常是音素的一小部分，很少（据我所见）像整个音素那么大。基本上，它是一个离散谱图，以一种与时间片的高斯混合形式同构的形式表示编辑感谢那些提供意见和优秀答案的人。我更新它只是为了替换我最初尝试的错误信息从深度NN（DNN的最终隐藏层

有人能解释一下i向量和d向量的区别吗？关于它们，我所知道的只是它们在说话人/语音识别系统中被广泛使用，它们是一种表示说话人信息的模板，但我不知道主要区别。

我不知道如何用普通语言正确描述d向量，但我可以帮点忙

身份向量，或i-vector，是特定语音片段的频谱特征，通常是音素的一小部分，很少（据我所见）像整个音素那么大。基本上，它是一个离散谱图，以一种与时间片的高斯混合形式同构的形式表示

编辑

感谢那些提供意见和优秀答案的人。我更新它只是为了替换我最初尝试的错误信息

从深度NN（DNN的最终隐藏层中的特征向量的平均值）中提取d向量。这将成为说话人的模型，用于与其他语音样本进行比较以进行识别。
I-vector是一种表示帧级特征分布模式的特殊特征的特征。I向量提取本质上是GMM超向量的降维（尽管计算I向量时未提取GMM超向量）。它以与特征语音自适应方案或JFA技术类似的方式提取，但按句子（或输入语音样本）提取
另一方面，使用DNN提取d向量。为了提取d向量，需要训练一个DNN模型，该模型采用堆叠的滤波器组特征（类似于ASR中使用的DNN声学模型），并在输出上生成一个热说话人标签（或说话人概率）。D向量是该DNN最后一个隐藏层的平均激活。因此，与i-vector框架不同，它没有任何关于特征分布的假设（i-vector框架假设i-vector或潜在变量具有高斯分布）
总之，这是从完全不同的方法或假设中提取的两个截然不同的特征。我建议您阅读以下文件：
N.Dehak，p.Kenny，R.Dehak，p.Dumouchel和p.Ouellet，“说话人验证的前端因素分析”，IEEE音频、语音和语言处理交易，第19卷，第4期，第788-798页，2011年

E.Variani，X.Lei，E.McDermott，I.L.Moreno和J.G-Dominguez，“用于小足迹文本相关说话人验证的深度神经网络”，在Proc。ICASSP，2014，第4080-4084页。
我绝对不同意d向量是从I向量序列中提取出来的说法。d-向量是从（d）NN模型中提取的，i-向量是从GMM模型中提取的。我同意，i-向量的解释很好，但d-向量的解释是错误的，根据E.Variani，X.Lei，E.McDermott，i.L.Moreno和J.G-Dominguez，“用于小足迹文本相关说话人验证的深度神经网络”，在Proc。ICASSP，2014，第4080-4084页。什么是
帧级
？我所说的“帧级特征”，是指从每个语音帧中提取的声学特征（如MFCC）。什么是
语音帧
？“语音帧”本质上是语音的一小段。例如，您可以使用25ms的上下文窗口每隔10ms提取一个声学特征（通常称为帧步长或步幅）。在这种情况下，这些25ms的语音段就是帧，因此从每个帧提取的声学特征称为帧级特征。您应该查看此链接以了解其要点：