Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/334.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
基于librosa和Python的音频文件特征提取_Python_Machine Learning_Voice_Speech_Librosa - Fatal编程技术网

基于librosa和Python的音频文件特征提取

基于librosa和Python的音频文件特征提取,python,machine-learning,voice,speech,librosa,Python,Machine Learning,Voice,Speech,Librosa,我想通过机器学习(分类和聚类)和相关、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了librosa图书馆的MFCC: import librosa y, sr = librosa.core.load(filename) m = librosa.feature.mfcc(y=y, sr=sr) 现在,将m作为附加功能,我面临多个问题: 与我的期望相反,MFCC返回的是2D数组,而不是通常需要的一维数组 上述分析方法。我应该坚持这种方法,并尝试以某

我想通过机器学习(分类和聚类)和相关、相似性计算来处理声音(语音)文件。出于所有这些目的,我需要像往常一样应用某种特征提取。我选择了librosa图书馆的MFCC:

import librosa

y, sr = librosa.core.load(filename)
m = librosa.feature.mfcc(y=y, sr=sr)
现在,将
m
作为附加功能,我面临多个问题:

  • 与我的期望相反,MFCC返回的是2D数组,而不是通常需要的一维数组 上述分析方法。我应该坚持这种方法,并尝试以某种方式将2D转换为1D(展平阵列或平均行),还是存在更好的替代方案

  • MFCC阵列的第二维度具有自然不同的长音,因此各不相同。我该怎么处理这件事?截断/填充第二维度以使其具有相同的数组