Speech recognition 说话人识别和语音识别中使用的MFCC功能之间的区别?

Speech recognition 说话人识别和语音识别中使用的MFCC功能之间的区别?,speech-recognition,voice-recognition,mfcc,Speech Recognition,Voice Recognition,Mfcc,我有一个概念上的问题 我知道什么是MFCC。但我无法找到用于说话人识别和语音识别的mfcc特征向量之间的差异,即mfcc特征的哪一部分用作两者之间的区分因子? 以及如何根据mfcc向量区分两个说话人?这些特征非常相似。不同之处在于系数的数量、窗口大小、标准化。。。等等,看一看 使用mfcc功能,您可以通过多种方式区分扬声器。两种最著名的技术是: GMM/UBM技术:为每个说话人创建一个GMM,另一个GMM作为背景模型,然后对输入的话语进行评分 i-vector技术:它是mfcc上的一种后处理,

我有一个概念上的问题

我知道什么是MFCC。但我无法找到用于说话人识别和语音识别的mfcc特征向量之间的差异,即mfcc特征的哪一部分用作两者之间的区分因子?
以及如何根据mfcc向量区分两个说话人?

这些特征非常相似。不同之处在于系数的数量、窗口大小、标准化。。。等等,看一看

使用mfcc功能,您可以通过多种方式区分扬声器。两种最著名的技术是:

  • GMM/UBM技术:为每个说话人创建一个GMM,另一个GMM作为背景模型,然后对输入的话语进行评分
  • i-vector技术:它是mfcc上的一种后处理,用于生成表示扬声器声学模型的新向量。这项技术在中使用,以及它是如何工作的

这些功能非常相似。不同之处在于系数的数量、窗口大小、标准化。。。等等,看一看

使用mfcc功能,您可以通过多种方式区分扬声器。两种最著名的技术是:

  • GMM/UBM技术:为每个说话人创建一个GMM,另一个GMM作为背景模型,然后对输入的话语进行评分
  • i-vector技术:它是mfcc上的一种后处理,用于生成表示扬声器声学模型的新向量。这项技术在中使用,以及它是如何工作的