Speech recognition 用于深度学习的音频功能

Speech recognition 用于深度学习的音频功能,speech-recognition,deep-learning,Speech Recognition,Deep Learning,我发现了一些使用深度学习进行音频分类的论文和幻灯片 一些研究使用频谱图作为深度学习模型的输入 我想知道准确和实际的执行情况 我发现了 第67页 据我了解,第一层的节点号是24,输入是24个不同时间段的谱图 例如,如果音频事件为2.4秒,则第一个节点为0~0.1秒的频谱图,第二个节点为0.1~0.2秒的频谱图 我误解了吗 我的问题:如果有3.0秒的音频事件,如何对其进行分类?您应该使用。负责时间分辨率。我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别

我发现了一些使用深度学习进行音频分类的论文和幻灯片

一些研究使用频谱图作为深度学习模型的输入

我想知道准确和实际的执行情况

我发现了

第67页


据我了解,第一层的节点号是24,输入是24个不同时间段的谱图

例如,如果音频事件为2.4秒,则第一个节点为0~0.1秒的频谱图,第二个节点为0.1~0.2秒的频谱图

我误解了吗


我的问题:如果有3.0秒的音频事件,如何对其进行分类?

您应该使用。负责时间分辨率。

我设法使用卷积神经网络对时间序列数据进行分类。卷积神经网络与人工神经网络基本相同。唯一的区别是,ANN的输入必须先进行卷积,才能提取特定特征。以直观的方式,卷积运算基本上突出了某些数据的特定特征。最好用手电筒照亮图像的不同部分来描绘它。通过这样做,我们可以突出显示图像的特定特征

这是CNN的主要观点。它本质上是为提取空间特征而设计的。卷积运算通常是堆叠的,这意味着您有(行、列、维度),因此卷积的输出是三维的。这个过程的缺点是计算时间长。为了减少这一点,我们需要下采样,这基本上减少了特征检测器的大小,而不会丢失基本特征/信息。例如,在合并之前,您有12个6,6矩阵作为特征检测器。在合并之后,您有12个大小为3,3的卷积数据。您可以在展平之前反复执行这两个步骤,基本上将所有这些步骤压成(n,1)维数组。之后,您可以执行正常的ANN步骤

简而言之,时间序列数据的分类步骤可以使用CNN完成。以下是步骤:

1.卷积
2.联营
3.扁平化
4.完全连接(正常ANN步骤)


您可以随意添加卷积层和池层,但要注意培训时间。这是我最喜欢的年轻人Siraj Raval写的。顺便说一句,我建议你用它来进行深度学习。放下最简单的深度学习lib库。希望能有所帮助。

我训练了一名CNN来检测录音中所说的语言。它目前支持176种语言,准确率为98.8%。我的GitHub帐户上有一个评论很好的Jupyter笔记本:

我想这就是你要找的。我学到的一些东西包括:

  • 该架构不需要重复,因为时间可以在x轴上编码。对于非经常性CNN,输入的长度必须是固定的

  • 光谱图在许多方面与照片在语义上是不同的。对于照片来说效果很好的流行架构,对于光谱图来说可能是完全多余的

  • 分别对x和y进行不同分辨率的实验。在我的用例中,我第一次假设时间轴需要比频率轴更高的分辨率是错误的

  • 使用mel频谱图为低频率提供更高的分辨率。我们的听力是指数级的,而不是线性的

可能的副本