Pattern matching 使用DTW设置处理MFFC中的异常值
我有一个小型的命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是MFCC的系数。后端使用DTW对齐这些特征向量并输出分数(0->命令相等)进行识别。此设置的问题在于将命令(用户录制的命令)与其他单词区分开来。选择一个最大分数作为识别命令的阈值不会给出好的结果。我查找了LDA和PCA,目的是将记录的特征投影到不同的特征空间,在那里它们可以更加分离。每个记录的命令都是一个类,该类具有来自与该命令帧相关联的前端的特征向量样本。根据这一点,我计算了LDA所需的转换,并将转换应用于得到的每一组MFCC系数。这并没有让我区分录制的命令和录制的命令 我的问题是:Pattern matching 使用DTW设置处理MFFC中的异常值,pattern-matching,speech-recognition,mfcc,Pattern Matching,Speech Recognition,Mfcc,我有一个小型的命令识别系统,用户首先记录他的命令,然后系统尝试识别它们。前端的特征向量是MFCC的系数。后端使用DTW对齐这些特征向量并输出分数(0->命令相等)进行识别。此设置的问题在于将命令(用户录制的命令)与其他单词区分开来。选择一个最大分数作为识别命令的阈值不会给出好的结果。我查找了LDA和PCA,目的是将记录的特征投影到不同的特征空间,在那里它们可以更加分离。每个记录的命令都是一个类,该类具有来自与该命令帧相关联的前端的特征向量样本。根据这一点,我计算了LDA所需的转换,并将转换应用于
- 应用LDA的方法是否错误
- 是否有其他方法更适合我的设置(MFCC+DTW)
唯一需要知道的是,阈值必须依赖于模板关键字。所以对于不同的模板关键字,阈值必须是不同的。单个阈值不起作用。感谢您的回复,我尝试为每个关键字使用阈值,方法是在该关键字和其他关键字之间选择最大分数。在噪声条件下,它不会产生良好的效果。我还尝试为每个关键字选取通过将该关键字(在干净条件下)与其余关键字匹配而获得的最大分数,只有后面的关键字在噪声条件下才会出现。虽然在现实场景中不可行,但它可以提供良好的结果。有什么方法可以利用这些知识吗?