Machine learning 使用什么数据结构对经过训练的语音模型进行编码?

Machine learning 使用什么数据结构对经过训练的语音模型进行编码?,machine-learning,voice-recognition,Machine Learning,Voice Recognition,训练有素的语音模型是什么样子的?即: 什么是典型的数据结构,对某人的语音指纹进行编码 如何将语音样本与评估模型进行比较,以确定是否匹配 我知道实现中可能有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常棒。要创建个人模型: 特别是,在语音生物识别中,你对某人的声音有很长的记录 然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC): 一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,

训练有素的语音模型是什么样子的?即:

  • 什么是典型的数据结构,对某人的语音指纹进行编码

  • 如何将语音样本与评估模型进行比较,以确定是否匹配


我知道实现中可能有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常棒。

要创建个人模型:

特别是,在语音生物识别中,你对某人的声音有很长的记录

然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC):

一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,获得MFCC的概率密度分布:

预测

假设您现在有几个人的声音模型

当您有新的语音记录a时,您需要再次拆分新的语音记录并提取MFCC

然后您可以获得新样本属于每个模型的概率


如果概率高于阈值,则有匹配项。

要创建人物模型,请执行以下操作:

特别是,在语音生物识别中,你对某人的声音有很长的记录

然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC):

一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,获得MFCC的概率密度分布:

预测

假设您现在有几个人的声音模型

当您有新的语音记录a时,您需要再次拆分新的语音记录并提取MFCC

然后您可以获得新样本属于每个模型的概率

如果概率高于阈值,则有匹配项

什么是典型的数据结构,对某人的语音指纹进行编码

现代方法基于称为i向量的因子向量。I向量是100-400个元素的实向量。它很好地刻画了演讲者的性格

您可以从中了解有关i向量的更多信息

最初,i矢量是用GMM模型提取的,在最先进的技术中,使用了DNN检测器

如何将语音样本与评估模型进行比较,以确定是否匹配

I向量与它们之间的余弦距离进行比较

我知道在实现中可能会有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常好

有许多实现,您可以从中获得最佳结果

什么是典型的数据结构,对某人的语音指纹进行编码

现代方法基于称为i向量的因子向量。I向量是100-400个元素的实向量。它很好地刻画了演讲者的性格

您可以从中了解有关i向量的更多信息

最初,i矢量是用GMM模型提取的,在最先进的技术中,使用了DNN检测器

如何将语音样本与评估模型进行比较,以确定是否匹配

I向量与它们之间的余弦距离进行比较

我知道在实现中可能会有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常好

有许多实现,您可以从中获得最佳结果