Neural network 什么是MFCC值?

Neural network 什么是MFCC值?,neural-network,speech-recognition,mfcc,Neural Network,Speech Recognition,Mfcc,所以我知道什么是MFCC(Mel频率倒谱系数)。但我需要了解每个值是什么。。。它是某种声音频率值还是什么 假设我们有这样的矩阵。所以每一行代表一帧的系数,但这些数字是什么?倒谱通常是通过计算一帧语音的(对称)对数功率谱的离散余弦变换得到的;这里,对数功率谱[曲线]被视为一个信号()。因此,倒谱系数是序列/曲线(表示对数功率谱)和不同“频率”的余弦波之间的相似性度量。倒谱系数捕捉该序列值变化的速率 第一倒谱系数是对数功率谱与[周期]余弦波的点积,余弦波的一个周期从频域中的原点(f=0)开始,并在

所以我知道什么是MFCC(Mel频率倒谱系数)。但我需要了解每个值是什么。。。它是某种声音频率值还是什么


假设我们有这样的矩阵。所以每一行代表一帧的系数,但这些数字是什么?倒谱通常是通过计算一帧语音的(对称)对数功率谱的离散余弦变换得到的;这里,对数功率谱[曲线]被视为一个信号()。因此,倒谱系数是序列/曲线(表示对数功率谱)和不同“频率”的余弦波之间的相似性度量。倒谱系数捕捉该序列值变化的速率

第一倒谱系数是对数功率谱与[周期]余弦波的点积,余弦波的一个周期从频域中的原点(f=0)开始,并在f=2*Pi弧度(或等效采样频率)结束。举例说明:元音的对数功率谱在低频区(接近f=0)具有高能量,在高频区(接近f=Pi)具有低能量。换句话说,对数功率谱曲线在[0,Pi]范围内的斜率在元音的情况下具有负斜率。由于对数功率谱的这种变化类似于上述余弦波的变化,元音语音帧的第一倒谱系数将具有正值。相反,像/s/这样的清音摩擦音的倒谱[1]将具有负值,因为它的对数功率谱将具有正斜率,这是由于低频时的低能量和高频时的高能量,以及由于发声而在低频时的显著能量


类似地,如果在f=Pi/2的对数功率谱中存在一个主谷,倒谱[2]将为正。浊音摩擦音(ex:/z/)的对数功率谱将接近这样的描述,因为由于声音的摩擦性质,在高频下有大量能量。当然,倒谱[0]是对数功率谱值的平均值;它捕获信号的音量/响度。

复制@NikolayShmyrev一点也不…我建议先阅读维基百科条目,然后询问文本中您不理解的内容:。基本上,它是光谱的振幅,它没有单位。