Speech recognition 用于深度学习的音频功能_Speech Recognition_Deep Learning

Speech recognition 用于深度学习的音频功能

speech-recognition deep-learning

Speech recognition 用于深度学习的音频功能,speech-recognition,deep-learning,Speech Recognition,Deep Learning,我发现了一些使用深度学习进行音频分类的论文和幻灯片一些研究使用频谱图作为深度学习模型的输入我想知道准确和实际的执行情况我发现了第67页据我了解，第一层的节点号是24，输入是24个不同时间段的谱图例如，如果音频事件为2.4秒，则第一个节点为0~0.1秒的频谱图，第二个节点为0.1~0.2秒的频谱图我误解了吗我的问题：如果有3.0秒的音频事件，如何对其进行分类？您应该使用。负责时间分辨率。我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别

我发现了一些使用深度学习进行音频分类的论文和幻灯片

一些研究使用频谱图作为深度学习模型的输入

我想知道准确和实际的执行情况

我发现了

第67页

据我了解，第一层的节点号是24，输入是24个不同时间段的谱图

例如，如果音频事件为2.4秒，则第一个节点为0~0.1秒的频谱图，第二个节点为0.1~0.2秒的频谱图

我误解了吗

我的问题：如果有3.0秒的音频事件，如何对其进行分类？

您应该使用。负责时间分辨率。

我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别是，ANN的输入必须先进行卷积，才能提取特定特征。以直观的方式，卷积运算基本上突出了某些数据的特定特征。最好用手电筒照亮图像的不同部分来描绘它。通过这样做，我们可以突出显示图像的特定特征

这是CNN的主要观点。它本质上是为提取空间特征而设计的。卷积运算通常是堆叠的，这意味着您有（行、列、维度），因此卷积的输出是三维的。这个过程的缺点是计算时间长。为了减少这一点，我们需要池或下采样，这基本上减少了特征检测器的大小，而不会丢失基本特征/信息。例如，在合并之前，您有12个6,6矩阵作为特征检测器。在合并之后，您有12个大小为3,3的卷积数据。您可以在展平之前反复执行这两个步骤，基本上将所有这些步骤压成（n，1）维数组。之后，您可以执行正常的ANN步骤

简而言之，时间序列数据的分类步骤可以使用CNN完成。以下是步骤：

1.卷积
2.联营
3.扁平化
4.完全连接（正常ANN步骤）

您可以随意添加卷积层和池层，但要注意培训时间。这是我最喜欢的年轻人Siraj Raval写的。顺便说一句，我建议你用它来进行深度学习。放下最简单的深度学习lib库。希望能有所帮助。

我训练了一名CNN来检测录音中所说的语言。它目前支持176种语言，准确率为98.8%。我的GitHub帐户上有一个评论很好的Jupyter笔记本：

我想这就是你要找的。我学到的一些东西包括：

该架构不需要重复，因为时间可以在x轴上编码。对于非经常性CNN，输入的长度必须是固定的
光谱图在许多方面与照片在语义上是不同的。对于照片来说效果很好的流行架构，对于光谱图来说可能是完全多余的
分别对x和y进行不同分辨率的实验。在我的用例中，我第一次假设时间轴需要比频率轴更高的分辨率是错误的
使用mel频谱图为低频率提供更高的分辨率。我们的听力是指数级的，而不是线性的

可能的副本