Python 如何使用CNN和PyTorch处理音频分类的输入数据？_Python_Machine Learning_Classification_Pytorch_Signal Processing

Python 如何使用CNN和PyTorch处理音频分类的输入数据？

python machine-learning pytorch

Python 如何使用CNN和PyTorch处理音频分类的输入数据？,python,machine-learning,classification,pytorch,signal-processing,Python,Machine Learning,Classification,Pytorch,Signal Processing,作为一名工程师学生，我致力于DSP和ML领域的研究，我正在进行一个音频分类项目，输入是贝斯、键盘、吉他等乐器的短片段（4秒）（）我们的想法是将所有短片段（.wav文件）转换为光谱图或光谱图，然后应用CNN来训练模型然而，我的问题是，由于整个数据集很大（大约23GB），我想知道是否应该首先将所有音频文件转换为PNG之类的图像，然后应用CNN。我觉得这可能需要很多时间，而且它将使我输入数据的存储空间翻倍，因为现在是音频+图像（可能高达70GB）因此，我想知道是否有任何解决办法可以加快这一进程

作为一名工程师学生，我致力于DSP和ML领域的研究，我正在进行一个音频分类项目，输入是贝斯、键盘、吉他等乐器的短片段（4秒）（）

我们的想法是将所有短片段（.wav文件）转换为光谱图或光谱图，然后应用CNN来训练模型

然而，我的问题是，由于整个数据集很大（大约23GB），我想知道是否应该首先将所有音频文件转换为PNG之类的图像，然后应用CNN。我觉得这可能需要很多时间，而且它将使我输入数据的存储空间翻倍，因为现在是音频+图像（可能高达70GB）

因此，我想知道是否有任何解决办法可以加快这一进程

提前感谢。

预处理完全值得。你很可能会在你的网络按你所希望的那样工作之前运行多个实验，你不想每次都浪费时间来预处理功能，你想更改一些超参数

我宁愿直接保存PyTorch张量（使用Python的标准pickling协议）或NumPy数组（将序列化数组保存到zip文件中），而不是使用PNG。如果您关注磁盘空间，可以考虑./P>