Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/ant/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Audio 如何使用MFCC向量对单个音频文件进行分类?_Audio_Classification_Knn_Mfcc - Fatal编程技术网

Audio 如何使用MFCC向量对单个音频文件进行分类?

Audio 如何使用MFCC向量对单个音频文件进行分类?,audio,classification,knn,mfcc,Audio,Classification,Knn,Mfcc,这可能是一个非常愚蠢的问题,但我在任何地方都找不到细节 所以我有一个3秒长的录音(wav文件)。这是我的样本,需要分类为[class_A]或[class_B] 通过遵循MFCC的一些指导,我将样本划分为多个帧(确切地说是291帧),并从每个帧中获得MFCC 现在我有291个特征向量,每个向量的长度是13 我的问题是,;如何准确地将这些向量用于分类器(例如k-NN)?我有291个向量,代表一个样本。我知道如何使用1个样本的1个向量,但如果有291个,我不知道该怎么办。我在任何地方都找不到解释。每个

这可能是一个非常愚蠢的问题,但我在任何地方都找不到细节

所以我有一个3秒长的录音(wav文件)。这是我的样本,需要分类为[class_A]或[class_B]

通过遵循MFCC的一些指导,我将样本划分为多个帧(确切地说是291帧),并从每个帧中获得MFCC

现在我有291个特征向量,每个向量的长度是13


我的问题是,;如何准确地将这些向量用于分类器(例如k-NN)?我有291个向量,代表一个样本。我知道如何使用1个样本的1个向量,但如果有291个,我不知道该怎么办。我在任何地方都找不到解释。

每个矢量都代表音频文件的频谱特征,因为它随时间而变化。根据帧的长度,您可能希望对其中一些帧进行分组(例如,通过按维度平均),以匹配您希望分类器使用的分辨率。举个例子,想象一个特定的声音,它可能有一个攻击时间为2ms的包络:它可能是你希望通过时间量化得到的细粒度,因此你可以a)分组并平均表示2ms的MFCC向量的数量;或b)以所需的时间分辨率重新计算MFCC


如果你真的想保持这样好的分辨率,你可以连接291个向量,把它当作一个向量(291 x 13维),这可能需要一个巨大的数据集来训练

你能提供你如何解决这个问题的链接吗?你能发布你的解决方案吗?我为一个音频文件生成了一个mfcc,它有形状(205211),所以这是5211个向量,每个向量有20个mfcc值。我如何给它一个神经网络?“我很困惑,”克拉泽说,“我没有使用神经网络。我使用了支持向量机。我建议你看看sk学习神经网络教程