Machine learning 使用什么数据结构对经过训练的语音模型进行编码?
训练有素的语音模型是什么样子的?即:Machine learning 使用什么数据结构对经过训练的语音模型进行编码?,machine-learning,voice-recognition,Machine Learning,Voice Recognition,训练有素的语音模型是什么样子的?即: 什么是典型的数据结构,对某人的语音指纹进行编码 如何将语音样本与评估模型进行比较,以确定是否匹配 我知道实现中可能有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常棒。要创建个人模型: 特别是,在语音生物识别中,你对某人的声音有很长的记录 然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC): 一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,
- 什么是典型的数据结构,对某人的语音指纹进行编码
- 如何将语音样本与评估模型进行比较,以确定是否匹配
我知道实现中可能有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常棒。要创建个人模型: 特别是,在语音生物识别中,你对某人的声音有很长的记录 然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC): 一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,获得MFCC的概率密度分布: 预测 假设您现在有几个人的声音模型 当您有新的语音记录a时,您需要再次拆分新的语音记录并提取MFCC 然后您可以获得新样本属于每个模型的概率
如果概率高于阈值,则有匹配项。要创建人物模型,请执行以下操作: 特别是,在语音生物识别中,你对某人的声音有很长的记录 然后将记录拆分为毫秒的一小部分,并提取这些部分的特征。最广泛的特征是Mel频率倒谱系数(MFCC): 一旦你有了一个数据集(许多小部分语音的MFCC),你就可以使用高斯混合模型(GMMs)等算法对语音建模,获得MFCC的概率密度分布: 预测 假设您现在有几个人的声音模型 当您有新的语音记录a时,您需要再次拆分新的语音记录并提取MFCC 然后您可以获得新样本属于每个模型的概率 如果概率高于阈值,则有匹配项 什么是典型的数据结构,对某人的语音指纹进行编码 现代方法基于称为i向量的因子向量。I向量是100-400个元素的实向量。它很好地刻画了演讲者的性格 您可以从中了解有关i向量的更多信息 最初,i矢量是用GMM模型提取的,在最先进的技术中,使用了DNN检测器 如何将语音样本与评估模型进行比较,以确定是否匹配 I向量与它们之间的余弦距离进行比较 我知道在实现中可能会有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常好 有许多实现,您可以从中获得最佳结果 什么是典型的数据结构,对某人的语音指纹进行编码 现代方法基于称为i向量的因子向量。I向量是100-400个元素的实向量。它很好地刻画了演讲者的性格 您可以从中了解有关i向量的更多信息 最初,i矢量是用GMM模型提取的,在最先进的技术中,使用了DNN检测器 如何将语音样本与评估模型进行比较,以确定是否匹配 I向量与它们之间的余弦距离进行比较 我知道在实现中可能会有一些变化,因此任何来自学术文献或成功实现的流行示例都将非常好 有许多实现,您可以从中获得最佳结果