Machine learning 如何处理不同的音频格式进行音频分类?
我正在编写一个音频分类问题声明,以便在两个音频类之间进行分类。我从中收集了样本,他们提供了音频小部件来收集.wav音频,但事实证明该小部件将数据存储在: 在我的问题陈述中,分类类来自不同的格式:Machine learning 如何处理不同的音频格式进行音频分类?,machine-learning,audio,deep-learning,signal-processing,librosa,Machine Learning,Audio,Deep Learning,Signal Processing,Librosa,我正在编写一个音频分类问题声明,以便在两个音频类之间进行分类。我从中收集了样本,他们提供了音频小部件来收集.wav音频,但事实证明该小部件将数据存储在: 在我的问题陈述中,分类类来自不同的格式: class A : all the 100 samples are in .mp3 format ( jot form collection ) class B : all the samples are in .wav format 我在这里添加了两种类型的类的示例: :它是.wav格式的 详情:
class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format
我在这里添加了两种类型的类的示例:
:它是.wav格式的
详情:
General
Complete name : count.wav
Format : MPEG Audio
File size : 183 KiB
Duration : 9 s 360 ms
Overall bit rate mode : Constant
Overall bit rate : 160 kb/s
Writing library : LAME3.99.5
FileExtension_Invalid : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3
Audio
Format : MPEG Audio
Format version : Version 1
Format profile : Layer 3
Format settings : Joint stereo / MS Stereo
Duration : 9 s 360 ms
Bit rate mode : Constant
Bit rate : 160 kb/s
Channel(s) : 2 channels
Sampling rate : 48.0 kHz
Frame rate : 41.667 FPS (1152 SPF)
Compression mode : Lossy
Stream size : 183 KiB (100%)
Writing library : LAME3.99.5
Jotform说它是.wav格式,但只有扩展名是.wav,文件是.mp3格式
详情:
General
Complete name : count.wav
Format : MPEG Audio
File size : 183 KiB
Duration : 9 s 360 ms
Overall bit rate mode : Constant
Overall bit rate : 160 kb/s
Writing library : LAME3.99.5
FileExtension_Invalid : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3
Audio
Format : MPEG Audio
Format version : Version 1
Format profile : Layer 3
Format settings : Joint stereo / MS Stereo
Duration : 9 s 360 ms
Bit rate mode : Constant
Bit rate : 160 kb/s
Channel(s) : 2 channels
Sampling rate : 48.0 kHz
Frame rate : 41.667 FPS (1152 SPF)
Compression mode : Lossy
Stream size : 183 KiB (100%)
Writing library : LAME3.99.5
在将其输入到神经网络之前,我正在做什么:
当音频文件的格式不同时,对我来说,什么是音频分类的好策略?仅将MP3转换为线性PCM并不能消除可能由神经网络“学习”的编码伪影。由于MP3是有损格式,自然的方法是将相同的编解码器应用于您的WAVE 16位线性PCM文件,并使用MP3中编码的两个类
但是,编解码器本身可能不是类的唯一意外鉴别器。除了从jotform中仔细检查音频捕获实现之外,您还可以应用项目中可用的数据增强技术。您是否考虑过将数据混合到FLAC之类的东西,然后将所有文件降级到较低的频率?这取决于您是在处理与语音相关的任务还是更广泛的音频分类问题。对于语音,几乎没有任何超过16kHz的信息,所以对音频进行下采样应该没有什么害处。对于其他任务,您可能希望将音频保持在原始采样率。请注意,这个选择与您的编解码器不匹配有些无关。两天前,AudioEmotation有一个MP3压缩转换。它可以用来干扰原来是(高质量)wav的音频文件,使其具有与从mp3加载的音频相同的“压缩”音频质量。披露:我是《听觉心理学》的作者