Neural network i向量和d向量之间的差异

Neural network i向量和d向量之间的差异,neural-network,artificial-intelligence,speech-recognition,deep-learning,Neural Network,Artificial Intelligence,Speech Recognition,Deep Learning,有人能解释一下i向量和d向量的区别吗?关于它们,我所知道的只是它们在说话人/语音识别系统中被广泛使用,它们是一种表示说话人信息的模板,但我不知道主要区别。我不知道如何用普通语言正确描述d向量,但我可以帮点忙 身份向量,或i-vector,是特定语音片段的频谱特征,通常是音素的一小部分,很少(据我所见)像整个音素那么大。基本上,它是一个离散谱图,以一种与时间片的高斯混合形式同构的形式表示 编辑 感谢那些提供意见和优秀答案的人。我更新它只是为了替换我最初尝试的错误信息 从深度NN(DNN的最终隐藏层

有人能解释一下i向量和d向量的区别吗?关于它们,我所知道的只是它们在说话人/语音识别系统中被广泛使用,它们是一种表示说话人信息的模板,但我不知道主要区别。

我不知道如何用普通语言正确描述d向量,但我可以帮点忙

身份向量,或i-vector,是特定语音片段的频谱特征,通常是音素的一小部分,很少(据我所见)像整个音素那么大。基本上,它是一个离散谱图,以一种与时间片的高斯混合形式同构的形式表示

编辑

感谢那些提供意见和优秀答案的人。我更新它只是为了替换我最初尝试的错误信息


从深度NN(DNN的最终隐藏层中的特征向量的平均值)中提取d向量。这将成为说话人的模型,用于与其他语音样本进行比较以进行识别。

I-vector是一种表示帧级特征分布模式的特殊特征的特征。I向量提取本质上是GMM超向量的降维(尽管计算I向量时未提取GMM超向量)。它以与特征语音自适应方案或JFA技术类似的方式提取,但按句子(或输入语音样本)提取

另一方面,使用DNN提取d向量。为了提取d向量,需要训练一个DNN模型,该模型采用堆叠的滤波器组特征(类似于ASR中使用的DNN声学模型),并在输出上生成一个热说话人标签(或说话人概率)。D向量是该DNN最后一个隐藏层的平均激活。因此,与i-vector框架不同,它没有任何关于特征分布的假设(i-vector框架假设i-vector或潜在变量具有高斯分布)

总之,这是从完全不同的方法或假设中提取的两个截然不同的特征。我建议您阅读以下文件:

N.Dehak,p.Kenny,R.Dehak,p.Dumouchel和p.Ouellet,“说话人验证的前端因素分析”,IEEE音频、语音和语言处理交易,第19卷,第4期,第788-798页,2011年


E.Variani,X.Lei,E.McDermott,I.L.Moreno和J.G-Dominguez,“用于小足迹文本相关说话人验证的深度神经网络”,在Proc。ICASSP,2014,第4080-4084页。

我绝对不同意d向量是从I向量序列中提取出来的说法。d-向量是从(d)NN模型中提取的,i-向量是从GMM模型中提取的。我同意,i-向量的解释很好,但d-向量的解释是错误的,根据E.Variani,X.Lei,E.McDermott,i.L.Moreno和J.G-Dominguez,“用于小足迹文本相关说话人验证的深度神经网络”,在Proc。ICASSP,2014,第4080-4084页。什么是
帧级
?我所说的“帧级特征”,是指从每个语音帧中提取的声学特征(如MFCC)。什么是
语音帧
?“语音帧”本质上是语音的一小段。例如,您可以使用25ms的上下文窗口每隔10ms提取一个声学特征(通常称为帧步长或步幅)。在这种情况下,这些25ms的语音段就是帧,因此从每个帧提取的声学特征称为帧级特征。您应该查看此链接以了解其要点: