Tensorflow 卷积神经网络的输入数据

Tensorflow 卷积神经网络的输入数据,tensorflow,deep-learning,conv-neural-network,Tensorflow,Deep Learning,Conv Neural Network,我正在尝试深入学习,特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在,据我所知,CNN通常用于图像和对象识别,因此当使用音频时,人们通常使用频谱图(特别是mel频谱图)而不是时域信号。我的问题是,使用光谱图的图像(即RGB或灰度值)作为网络的输入更好,还是应该直接使用光谱图的2d幅值?这有什么区别吗 谢谢。光谱图是一个可爱的表示,特别是用于描述过程。从功能上讲,它只是对输入数据的简化,没有添加任何信息,并且失去了一点准确性——这可能无关紧要。预处理不会给你带来任何好处,所以只

我正在尝试深入学习,特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在,据我所知,CNN通常用于图像和对象识别,因此当使用音频时,人们通常使用频谱图(特别是mel频谱图)而不是时域信号。我的问题是,使用光谱图的图像(即RGB或灰度值)作为网络的输入更好,还是应该直接使用光谱图的2d幅值?这有什么区别吗


谢谢。

光谱图是一个可爱的表示,特别是用于描述过程。从功能上讲,它只是对输入数据的简化,没有添加任何信息,并且失去了一点准确性——这可能无关紧要。预处理不会给你带来任何好处,所以只需使用2d数据,让CNN从中获取信息。

通常图像具有局部模式。这是很自然的,所以通过应用卷积窗口,我们可以尝试提取一些局部连通性特征,这样,如果使用时域或频域中的频谱图像,就不会出现问题。但令人惊讶的问题是,如果我们直接使用光谱数据会怎么样? 我看过一个演讲,他们将CNN应用于下一个单词预测,给出上下文。在这种情况下,输入是词向量。更重要的是数字。所以他们使用了CNN层(矩形形状过滤器)来提取特征。
所以在这种情况下,如果数据有某种自然的生成模式,这是非常好的

你可能会发现这很有帮助:。谢谢@rrao,我已经看过了,它并没有真正回答我的问题。我也不同意你提到的答案,光谱图“丢弃”的唯一东西就是相位信息。谢谢@Prune!所以说输入数据是指2D STFT矩阵,对吗?不是原始的时域数据。对。你可以用原始数据来做,但我讨厌考虑神经网络的复杂性和训练时间——这绝对是一个Q学习问题!