基于librosa和Python的音频文件特征提取_Python_Machine Learning_Voice_Speech_Librosa

基于librosa和Python的音频文件特征提取

python machine-learning

基于librosa和Python的音频文件特征提取,python,machine-learning,voice,speech,librosa,Python,Machine Learning,Voice,Speech,Librosa,我想通过机器学习（分类和聚类）和相关、相似性计算来处理声音（语音）文件。出于所有这些目的，我需要像往常一样应用某种特征提取。我选择了librosa图书馆的MFCC： import librosa y, sr = librosa.core.load(filename) m = librosa.feature.mfcc(y=y, sr=sr) 现在，将m作为附加功能，我面临多个问题：与我的期望相反，MFCC返回的是2D数组，而不是通常需要的一维数组上述分析方法。我应该坚持这种方法，并尝试以某

我想通过机器学习（分类和聚类）和相关、相似性计算来处理声音（语音）文件。出于所有这些目的，我需要像往常一样应用某种特征提取。我选择了librosa图书馆的MFCC：

import librosa

y, sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y, sr=sr)

现在，将

作为附加功能，我面临多个问题：

与我的期望相反，MFCC返回的是2D数组，而不是通常需要的一维数组上述分析方法。我应该坚持这种方法，并尝试以某种方式将2D转换为1D（展平阵列或平均行），还是存在更好的替代方案

MFCC阵列的第二维度具有自然不同的长音，因此各不相同。我该怎么处理这件事？截断/填充第二维度以使其具有相同的数组