Speech recognition Mel倒谱系数-语音特征提取_Speech Recognition_Libsvm_Speech_Feature Extraction_Mfcc

Speech recognition Mel倒谱系数-语音特征提取

speech-recognition

Speech recognition Mel倒谱系数-语音特征提取,speech-recognition,libsvm,speech,feature-extraction,mfcc,Speech Recognition,Libsvm,Speech,Feature Extraction,Mfcc,我目前正在执行一个与语音识别相关的项目，其中包括鼠标事件，如右键单击、左键单击、双击。。etc将作为语音命令发出。因此，作为第一步，我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征，并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时，我的程序会给出类似的结果 e.g -15.211534 8.230449 2.150475 4.000576 -0.03781

我目前正在执行一个与语音识别相关的项目，其中包括鼠标事件，如右键单击、左键单击、双击。。etc将作为语音命令发出。因此，作为第一步，我的主管告诉我使用Mel频率倒谱系数提取每个语音命令的特征，并使用LIBSVM格式将这些提取的特征存储在文本文件中。我在互联网上使用一些参考资料实现了MFCC。但我不确定这是对的。我不确定MFCC的输出量。当我说“对”时，我的程序会给出类似的结果

e.g -15.211534  8.230449    2.150475    4.000576    -0.037819   -1.083192   0.102314    0.232710    -0.813507   -0.349909   0.850858

有人能解释一下输出之王应该从MFCC得到什么吗

如何以LIBSVM格式存储从MFCC提取的特征

有人能帮我找到解决我问题的正确的MFCC的mathlab实现吗

当试图分析语音时，大多数当代解决方案使用一系列MFCC系数，而不仅仅是单个系数。通常，获取MFCC的过程如下：

complexSpectrum = fft(signal)
powerSpectrum = abs(complexSpectrum) ** 2
filteredSpectrum = melFilterBank(powerSpectrum)
logSpectrum = log(filteredSpectrum)
dctSpectrum = dct(logSpectrum)

在一个30毫秒的窗口上，以10毫秒的步长沿着信号滑动

至于精确的实现，您可以从C（sfbcep util）或中（如果您觉得Java更熟悉的话）编写的代码中学习