Speech recognition 如何在帧上分割语音数据并计算MFCC
我了解创建自动语音识别引擎的基本步骤。然而,我需要一个关于如何分割的清晰的概念,以及什么是帧和样本。我会把我知道的写下来,希望答案能在我错的地方纠正我,并引导我更进一步 据我所知,语音识别的基本步骤是: (我假设输入数据是wav/ogg(或某种音频)文件)Speech recognition 如何在帧上分割语音数据并计算MFCC,speech-recognition,speech-to-text,speech,cmusphinx,Speech Recognition,Speech To Text,Speech,Cmusphinx,我了解创建自动语音识别引擎的基本步骤。然而,我需要一个关于如何分割的清晰的概念,以及什么是帧和样本。我会把我知道的写下来,希望答案能在我错的地方纠正我,并引导我更进一步 据我所知,语音识别的基本步骤是: (我假设输入数据是wav/ogg(或某种音频)文件) 预加重语音信号:即,应用一个滤波器,将重点放在高频信号上。可能类似于:y[n]=x[n]-0.95x[n-1] 查找话语开始的时间并调整片段大小。(可与步骤1互换) 将片段分割成更小的时间帧,每个片段的长度约为30毫秒。此外,每个段将有大约2
是。如何从.wav/.mp4文件构造mfcc?@kRazzyR不知道如何在评论中回答这个问题,但你需要阅读音频文件(如果需要,先解压缩)作为一个时间序列。然后大致应用本问答中所述的步骤。好的,我知道了。有一个名为librosa的python包。我能够使用import librosa y,sr=librosa.load('./data/tring/abcd.wav')mfcc=librosa.feature.mfcc(y=y,sr=sr)生成mfcc