Neural network 如何训练和制作神经网络的序列化特征向量?

Neural network 如何训练和制作神经网络的序列化特征向量?,neural-network,speech-recognition,Neural Network,Speech Recognition,通过序列化我的意思是,输入的值以离散的时间间隔出现,并且向量的大小也不知道。 传统上,神经网络采用固定大小的平行输入神经元和固定大小的平行输出神经元 序列化实现可用于语音识别,我可以向网络提供波形的时间序列,并在输出端获取音素 如果有人能指出一些现有的实现,那就太好了。简单的神经网络作为一种结构,在时间尺度变形上没有不变性,这就是为什么应用它来识别时间序列是不切实际的。为了识别时间序列,通常使用通用通信模型(HMM)。神经网络可以与隐马尔可夫模型一起用于对单个语音帧进行分类。在这种HMM-ANN

通过序列化我的意思是,输入的值以离散的时间间隔出现,并且向量的大小也不知道。 传统上,神经网络采用固定大小的平行输入神经元和固定大小的平行输出神经元

序列化实现可用于语音识别,我可以向网络提供波形的时间序列,并在输出端获取音素


如果有人能指出一些现有的实现,那就太好了。

简单的神经网络作为一种结构,在时间尺度变形上没有不变性,这就是为什么应用它来识别时间序列是不切实际的。为了识别时间序列,通常使用通用通信模型(HMM)。神经网络可以与隐马尔可夫模型一起用于对单个语音帧进行分类。在这种HMM-ANN配置中,音频在帧上分割,帧切片被传递到ANN中以计算音素概率,然后使用HMM动态搜索分析整个概率序列以获得最佳匹配

HMM-ANN系统通常需要从更健壮的HMM-GMM系统初始化,因此没有独立的HMM-ANN实现,通常它们是整个语音识别工具包的一部分。在流行的工具包中,有HMM-ANN甚至HMM-DNN(深度神经网络)的实现


还有一些神经网络是用来对时间序列进行分类的——递归神经网络,它们可以成功地用于语音分类。例如,可以使用支持RNN的任何工具包创建该示例。如果你想从递归神经网络开始,试试长短时记忆网络(LSTM),它们的结构可以实现更稳定的训练。语音识别的Keras设置在

中讨论。有几种类型的神经网络用于建模序列数据;我想说的是,这些模型中的大多数都适合一个称为的等价类,它通常是任何连接图包含一个循环的神经网络模型。通常可以利用连接图中的循环对网络过去“状态”的某些方面进行建模,并开发了不同的策略(例如,Elman/Jordan网等),以不同的方式利用该状态信息

从历史上看,反复出现的母语英语教师极难进行有效培训。由于最近在神经网络二阶优化工具方面的大量工作,以及深层神经网络社区的研究,最近开发了几个递归网络的示例,这些示例显示了在模拟真实任务方面的前景。在我看来,这种网络最新的例子之一是“使用递归神经网络生成文本”(ICML 2011),其中递归网络被用作非常紧凑的长程n-gram字符模型。(在链接的主页上尝试RNN演示,很有趣。)


据我所知,递归网络尚未成功地直接应用于语音->音素建模,但在他最近的几篇论文中特别提到了这一任务。(事实上,他似乎有一篇2013年ICASSP关于这一主题的论文。)

90年代,RNN在语音识别中的应用取得了一些成功。