Audio 试图从声波中提取一些特征,供AI歌曲作曲家使用

Audio 试图从声波中提取一些特征,供AI歌曲作曲家使用,audio,machine-learning,artificial-intelligence,neural-network,signal-processing,Audio,Machine Learning,Artificial Intelligence,Neural Network,Signal Processing,我正计划制作一个AI歌曲作曲家,它将接收一种乐器的一组歌曲,从声波中提取音符(如ABCDEFG)和某些特征,预成型机器学习(最有可能通过递归神经网络),并输出一系列ABCDEFG音符(即生成自己的歌曲/音乐) 我认为这将是一个无监督的学习问题,但我不是很确定 我想我会使用递归神经网络,但关于如何实现这一点,我有几个问题: -我应该从声波中提取哪些特征,以使输出的音乐旋律优美 另外,我还有一些其他问题 -使用递归神经网络是否可以输出序列音符向量(ABCDEF)? -有什么聪明的方法可以输入声波的特

我正计划制作一个AI歌曲作曲家,它将接收一种乐器的一组歌曲,从声波中提取音符(如ABCDEFG)和某些特征,预成型机器学习(最有可能通过递归神经网络),并输出一系列ABCDEFG音符(即生成自己的歌曲/音乐)

我认为这将是一个无监督的学习问题,但我不是很确定

我想我会使用递归神经网络,但关于如何实现这一点,我有几个问题:
-我应该从声波中提取哪些特征,以使输出的音乐旋律优美

另外,我还有一些其他问题 -使用递归神经网络是否可以输出序列音符向量(ABCDEF)?

-有什么聪明的方法可以输入声波的特征和音符序列吗

我曾经做过类似的事情(在matlab上制作了一个类似shazam的应用程序),我想你可以使用FFT(快速傅立叶变换)将其分解为组成频率及其相应的振幅。然后您可以使用不同仪器的频率范围从整个仪器中选择它们并进行分类。

我已经尝试过类似于RNN(递归神经网络)的方法。试着使用LSTM网络(长-短记忆),从我后来读到的内容来看,对于这种类型的数据处理,它们比RNN要好,因为它们不存在“消失梯度问题”


Chris Thaliyath所说的是关于如何训练特征检测器的一个很好的提示

您将需要额外的转换,以从FFT(如MFCC)中获得可靠的数据。单独使用FFT作为训练数据的基础太过嘈杂。