Audio 如何使用MFCC向量对单个音频文件进行分类？_Audio_Classification_Knn_Mfcc

Audio 如何使用MFCC向量对单个音频文件进行分类？

audio

Audio 如何使用MFCC向量对单个音频文件进行分类？,audio,classification,knn,mfcc,Audio,Classification,Knn,Mfcc,这可能是一个非常愚蠢的问题，但我在任何地方都找不到细节所以我有一个3秒长的录音（wav文件）。这是我的样本，需要分类为[class_A]或[class_B] 通过遵循MFCC的一些指导，我将样本划分为多个帧（确切地说是291帧），并从每个帧中获得MFCC 现在我有291个特征向量，每个向量的长度是13 我的问题是,；如何准确地将这些向量用于分类器（例如k-NN）？我有291个向量，代表一个样本。我知道如何使用1个样本的1个向量，但如果有291个，我不知道该怎么办。我在任何地方都找不到解释。每个

这可能是一个非常愚蠢的问题，但我在任何地方都找不到细节

所以我有一个3秒长的录音（wav文件）。这是我的样本，需要分类为[class_A]或[class_B]

通过遵循MFCC的一些指导，我将样本划分为多个帧（确切地说是291帧），并从每个帧中获得MFCC

现在我有291个特征向量，每个向量的长度是13

我的问题是,；如何准确地将这些向量用于分类器（例如k-NN）？我有291个向量，代表一个样本。我知道如何使用1个样本的1个向量，但如果有291个，我不知道该怎么办。我在任何地方都找不到解释。

每个矢量都代表音频文件的频谱特征，因为它随时间而变化。根据帧的长度，您可能希望对其中一些帧进行分组（例如，通过按维度平均），以匹配您希望分类器使用的分辨率。举个例子，想象一个特定的声音，它可能有一个攻击时间为2ms的包络：它可能是你希望通过时间量化得到的细粒度，因此你可以a）分组并平均表示2ms的MFCC向量的数量；或b）以所需的时间分辨率重新计算MFCC

如果你真的想保持这样好的分辨率，你可以连接291个向量，把它当作一个向量（291 x 13维），这可能需要一个巨大的数据集来训练

你能提供你如何解决这个问题的链接吗？你能发布你的解决方案吗？我为一个音频文件生成了一个mfcc，它有形状（205211），所以这是5211个向量，每个向量有20个mfcc值。我如何给它一个神经网络？“我很困惑，”克拉泽说，“我没有使用神经网络。我使用了支持向量机。我建议你看看sk学习神经网络教程