Machine learning 使用什么数据结构对经过训练的语音模型进行编码？_Machine Learning_Voice Recognition

Machine learning 使用什么数据结构对经过训练的语音模型进行编码？

machine-learning

Machine learning 使用什么数据结构对经过训练的语音模型进行编码？,machine-learning,voice-recognition,Machine Learning,Voice Recognition,训练有素的语音模型是什么样子的？即: 什么是典型的数据结构，对某人的语音指纹进行编码如何将语音样本与评估模型进行比较，以确定是否匹配我知道实现中可能有一些变化，因此任何来自学术文献或成功实现的流行示例都将非常棒。要创建个人模型：特别是，在语音生物识别中，你对某人的声音有很长的记录然后将记录拆分为毫秒的一小部分，并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数（MFCC）：一旦你有了一个数据集（许多小部分语音的MFCC），你就可以使用高斯混合模型（GMMs）等算法对语音建模，

训练有素的语音模型是什么样子的？即:

什么是典型的数据结构，对某人的语音指纹进行编码
如何将语音样本与评估模型进行比较，以确定是否匹配

我知道实现中可能有一些变化，因此任何来自学术文献或成功实现的流行示例都将非常棒。

要创建个人模型：

特别是，在语音生物识别中，你对某人的声音有很长的记录

然后将记录拆分为毫秒的一小部分，并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数（MFCC）：

一旦你有了一个数据集（许多小部分语音的MFCC），你就可以使用高斯混合模型（GMMs）等算法对语音建模，获得MFCC的概率密度分布：

预测

假设您现在有几个人的声音模型

当您有新的语音记录a时，您需要再次拆分新的语音记录并提取MFCC

然后您可以获得新样本属于每个模型的概率

如果概率高于阈值，则有匹配项。

要创建人物模型，请执行以下操作：

特别是，在语音生物识别中，你对某人的声音有很长的记录

然后将记录拆分为毫秒的一小部分，并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数（MFCC）：

一旦你有了一个数据集（许多小部分语音的MFCC），你就可以使用高斯混合模型（GMMs）等算法对语音建模，获得MFCC的概率密度分布：

预测

假设您现在有几个人的声音模型

当您有新的语音记录a时，您需要再次拆分新的语音记录并提取MFCC

然后您可以获得新样本属于每个模型的概率

如果概率高于阈值，则有匹配项

什么是典型的数据结构，对某人的语音指纹进行编码

现代方法基于称为i向量的因子向量。I向量是100-400个元素的实向量。它很好地刻画了演讲者的性格

您可以从中了解有关i向量的更多信息

最初，i矢量是用GMM模型提取的，在最先进的技术中，使用了DNN检测器

如何将语音样本与评估模型进行比较，以确定是否匹配

I向量与它们之间的余弦距离进行比较

我知道在实现中可能会有一些变化，因此任何来自学术文献或成功实现的流行示例都将非常好

有许多实现，您可以从中获得最佳结果