Tensorflow 卷积神经网络的输入数据_Tensorflow_Deep Learning_Conv Neural Network

Tensorflow 卷积神经网络的输入数据

tensorflow deep-learning

Tensorflow 卷积神经网络的输入数据,tensorflow,deep-learning,conv-neural-network,Tensorflow,Deep Learning,Conv Neural Network,我正在尝试深入学习，特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在，据我所知，CNN通常用于图像和对象识别，因此当使用音频时，人们通常使用频谱图（特别是mel频谱图）而不是时域信号。我的问题是，使用光谱图的图像（即RGB或灰度值）作为网络的输入更好，还是应该直接使用光谱图的2d幅值？这有什么区别吗谢谢。光谱图是一个可爱的表示，特别是用于描述过程。从功能上讲，它只是对输入数据的简化，没有添加任何信息，并且失去了一点准确性——这可能无关紧要。预处理不会给你带来任何好处，所以只

我正在尝试深入学习，特别是使用卷积神经网络。我想在一些音频数据上应用一个简单的网络。现在，据我所知，CNN通常用于图像和对象识别，因此当使用音频时，人们通常使用频谱图（特别是mel频谱图）而不是时域信号。我的问题是，使用光谱图的图像（即RGB或灰度值）作为网络的输入更好，还是应该直接使用光谱图的2d幅值？这有什么区别吗

谢谢。

光谱图是一个可爱的表示，特别是用于描述过程。从功能上讲，它只是对输入数据的简化，没有添加任何信息，并且失去了一点准确性——这可能无关紧要。预处理不会给你带来任何好处，所以只需使用2d数据，让CNN从中获取信息。

通常图像具有局部模式。这是很自然的，所以通过应用卷积窗口，我们可以尝试提取一些局部连通性特征，这样，如果使用时域或频域中的频谱图像，就不会出现问题。但令人惊讶的问题是，如果我们直接使用光谱数据会怎么样？我看过一个演讲，他们将CNN应用于下一个单词预测，给出上下文。在这种情况下，输入是词向量。更重要的是数字。所以他们使用了CNN层（矩形形状过滤器）来提取特征。

所以在这种情况下，如果数据有某种自然的生成模式，这是非常好的

你可能会发现这很有帮助：。谢谢@rrao，我已经看过了，它并没有真正回答我的问题。我也不同意你提到的答案，光谱图“丢弃”的唯一东西就是相位信息。谢谢@Prune！所以说输入数据是指2D STFT矩阵，对吗？不是原始的时域数据。对。你可以用原始数据来做，但我讨厌考虑神经网络的复杂性和训练时间——这绝对是一个Q学习问题！