Neural network 在递归神经网络中，哪种输入格式最适合声音识别？_Neural Network_Recurrent Neural Network

Neural network 在递归神经网络中，哪种输入格式最适合声音识别？

neural-network

Neural network 在递归神经网络中，哪种输入格式最适合声音识别？,neural-network,recurrent-neural-network,Neural Network,Recurrent Neural Network,我想用递归深层神经网络来创建声音或音调识别。我想知道通过什么样的投入才能得到最好的结果我应该给DNN提供振幅还是FFT（快速傅立叶变换）结果是否有其他已知的格式可以产生良好的结果和快速学习？通常用于语音识别。正在使用MFCC作为其DNN的输入对于python实现，您可以使用lib。虽然MFCC确实已用于音乐信息检索研究（用于流派分类等），但在这种情况下（音调检测），您可能希望使用半色调过滤器库或常量Q变换作为第一个信息缩减步骤。这些变换与音高更匹配但是我认为，如果你有大量的样本，那么直

我想用递归深层神经网络来创建声音或音调识别。我想知道通过什么样的投入才能得到最好的结果

我应该给DNN提供振幅还是FFT（快速傅立叶变换）结果

是否有其他已知的格式可以产生良好的结果和快速学习？

通常用于语音识别。正在使用MFCC作为其DNN的输入

对于python实现，您可以使用lib。

虽然MFCC确实已用于音乐信息检索研究（用于流派分类等），但在这种情况下（音调检测），您可能希望使用半色调过滤器库或常量Q变换作为第一个信息缩减步骤。这些变换与音高更匹配

但是我认为，如果你有大量的样本，那么直接使用RNN的音频样本也是值得的。理论上，RNN应该能够学习与特定音高对应的波形

从你的描述中，还不完全清楚你的目标是什么类型的“音高识别”：单声道乐器（恒定的音色，一次只能发出一个音高）？复调（音色不变，但可能同时发出多个音高）？多种乐器一起演奏（多音色、多音高）？甚至是音调和打击音的完全混合？这些用例的硬度大致按照我提到的顺序增加，因此您可能希望首先从单声道音高识别开始

要获得必要数量的训练示例，可以使用物理模型或多采样虚拟仪器以受控方式生成特定音高的音频样本。通过这种方式，您可以快速创建培训材料，而无需手动记录和标记。但我建议您至少在创建的音频样本中添加一些背景噪声（随机噪声，或来自不同录音的非常低级别的声音），否则您的数据可能过于人工，一旦您想在实践中使用它，就会导致模型无法正常工作

以下是一篇文章，可能会给你一些关于这个主题的想法：用于复调钢琴音乐转录的端到端神经网络（Siddharth Sigtia、Emmanouil Benetos和Simon Dixon）

非常感谢您的指导！非常感谢！