Python 执行命令提取mfcc后返回什么？_Python_Librosa_Mfcc_Soundfile

Python 执行命令提取mfcc后返回什么？

python

Python 执行命令提取mfcc后返回什么？,python,librosa,mfcc,soundfile,Python,Librosa,Mfcc,Soundfile,我一直在学习声音分析，并在其中遇到了术语mfcc。所以当我执行 librosa.feature.mfcc（y=X，sr=sample\u rate，n\u mfcc=40）我得到了形状为40乘216的numpy数组。因此，我在216帧中提取了40个特征。但在这里，帧的确切含义与采样率相似，我们在加载音频文件时定义了采样率。从中不明显的是，它在内部调用。并且melspectrogram具有定义帧的参数win\u length/n\u fft和hop\u length。您还可以将这些参数传递

我一直在学习声音分析，并在其中遇到了术语mfcc。所以当我执行

librosa.feature.mfcc（y=X，sr=sample\u rate，n\u mfcc=40）

我得到了形状为40乘216的numpy数组。因此，我在216帧中提取了40个特征。

但在这里，帧的确切含义与采样率相似，我们在加载音频文件时定义了采样率。

从中不明显的是，它在内部调用。并且

melspectrogram

具有定义帧的参数

win\u length

n\u fft

和

hop\u length

。您还可以将这些参数传递给

mfcc

那么什么是框架？基本上，这是处理一组原始样本的结果：假设窗口长度为2048个样本（这是默认值），跳长为512（也是默认值），mfcc返回的每一帧对应2048个原始样本，比前一帧“在音频中更远”512个样本。换句话说，帧之间存在明显的重叠

例如，要为音频创建mfcc，将帧定义为1024个样本和512个跃点长度，可以调用：

librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=40, hop_length=512, n_fft=1024)

同样，如果您没有显式地传递这些参数，将使用中的默认值