Speech recognition Mel倒谱系数-语音特征提取
我目前正在执行一个与语音识别相关的项目,其中包括鼠标事件,如右键单击、左键单击、双击。。etc将作为语音命令发出。因此,作为第一步,我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征,并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时,我的程序会给出类似的结果Speech recognition Mel倒谱系数-语音特征提取,speech-recognition,libsvm,speech,feature-extraction,mfcc,Speech Recognition,Libsvm,Speech,Feature Extraction,Mfcc,我目前正在执行一个与语音识别相关的项目,其中包括鼠标事件,如右键单击、左键单击、双击。。etc将作为语音命令发出。因此,作为第一步,我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征,并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时,我的程序会给出类似的结果 e.g -15.211534 8.230449 2.150475 4.000576 -0.03781
e.g -15.211534 8.230449 2.150475 4.000576 -0.037819 -1.083192 0.102314 0.232710 -0.813507 -0.349909 0.850858
当试图分析语音时,大多数当代解决方案使用一系列MFCC系数,而不仅仅是单个系数。通常,获取MFCC的过程如下:
complexSpectrum = fft(signal)
powerSpectrum = abs(complexSpectrum) ** 2
filteredSpectrum = melFilterBank(powerSpectrum)
logSpectrum = log(filteredSpectrum)
dctSpectrum = dct(logSpectrum)
在一个30毫秒的窗口上,以10毫秒的步长沿着信号滑动
至于精确的实现,您可以从C(sfbcep util)或中(如果您觉得Java更熟悉的话)编写的代码中学习