Speech recognition 如何对MFCC系数向量序列进行说话人识别?

Speech recognition 如何对MFCC系数向量序列进行说话人识别?,speech-recognition,svm,Speech Recognition,Svm,该项目是使用支持向量机进行说话人识别,使用MFCC作为特征集。通常,MFCC系数是通过一个以磨秒为单位的窗口大小创建的。然而,由于说话人只讲几秒钟,至少有人可以在SVM中使用MFCC序列。问题是如何做到这一点。通常,支持向量机或任何核函数都以一个向量作为输入,但在这种情况下,我们可以使用多个向量或矩阵来增强鲁棒性。SVM如何学习矩阵而不是向量?传统的方法是使用专门的数学模型来分析MFCC序列中的因素并提取说话人向量。你删除了MFCC中与实际单词相关的可变性,删除了与语调相关的可变性,只保留了与说

该项目是使用支持向量机进行说话人识别,使用MFCC作为特征集。通常,MFCC系数是通过一个以磨秒为单位的窗口大小创建的。然而,由于说话人只讲几秒钟,至少有人可以在SVM中使用MFCC序列。问题是如何做到这一点。通常,支持向量机或任何核函数都以一个向量作为输入,但在这种情况下,我们可以使用多个向量或矩阵来增强鲁棒性。SVM如何学习矩阵而不是向量?

传统的方法是使用专门的数学模型来分析MFCC序列中的因素并提取说话人向量。你删除了MFCC中与实际单词相关的可变性,删除了与语调相关的可变性,只保留了与说话人相关的因素。说话人向量可以在以后使用SVM进行分析。您可以从中查看详细信息

更高级的研究使用神经网络来提取说话人向量,即所谓的说话人向量


然后使用SVM对d向量进行分类。

交叉发布:。请每个社区都应该诚实地回答问题,而不会浪费任何人的时间。>同态这并不合理,因为语音文本包含除说话人身份之外的其他信息>我需要一些方法来验证我的结果。下载voxceleb数据集并演示您的方法的优越性