Speech recognition Mel倒谱系数-语音特征提取

Speech recognition Mel倒谱系数-语音特征提取,speech-recognition,libsvm,speech,feature-extraction,mfcc,Speech Recognition,Libsvm,Speech,Feature Extraction,Mfcc,我目前正在执行一个与语音识别相关的项目,其中包括鼠标事件,如右键单击、左键单击、双击。。etc将作为语音命令发出。因此,作为第一步,我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征,并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时,我的程序会给出类似的结果 e.g -15.211534 8.230449 2.150475 4.000576 -0.03781

我目前正在执行一个与语音识别相关的项目,其中包括鼠标事件,如右键单击、左键单击、双击。。etc将作为语音命令发出。因此,作为第一步,我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征,并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时,我的程序会给出类似的结果

e.g -15.211534  8.230449    2.150475    4.000576    -0.037819   -1.083192   0.102314    0.232710    -0.813507   -0.349909   0.850858
  • 有人能解释一下输出之王应该从MFCC得到什么吗
  • 如何以LIBSVM格式存储从MFCC提取的特征
  • 有人能帮我找到解决我问题的正确的MFCC的mathlab实现吗

  • 当试图分析语音时,大多数当代解决方案使用一系列MFCC系数,而不仅仅是单个系数。通常,获取MFCC的过程如下:

    complexSpectrum = fft(signal)
    powerSpectrum = abs(complexSpectrum) ** 2
    filteredSpectrum = melFilterBank(powerSpectrum)
    logSpectrum = log(filteredSpectrum)
    dctSpectrum = dct(logSpectrum)
    
    在一个30毫秒的窗口上,以10毫秒的步长沿着信号滑动

    至于精确的实现,您可以从C(sfbcep util)或中(如果您觉得Java更熟悉的话)编写的代码中学习