Deep learning 语音识别的上下文窗口

Deep learning 语音识别的上下文窗口,deep-learning,speech-recognition,speech-to-text,speech,Deep Learning,Speech Recognition,Speech To Text,Speech,在许多语音识别论文中,我看到了“帧的上下文窗口”这个术语。我对此不确定,但看起来你从一个话语中取了一个x帧,然后将这个帧与之前的5个帧和未来的5个帧连接起来。此上下文窗口的标签是中心框架。我说得对吗 多谢各位 (顺便说一句,数字5只是一个例子)是的,这个术语从深度神经网络(DNN)应用到自动语音识别开始流行起来。例如,“11帧声学上下文窗口”表示将前5帧和后5帧的特征向量连接到当前帧的向量。但标签仍然是中心框架的标签。使用上下文窗口提高了DNN模型的性能,但以前没有使用HMMs(隐马尔可夫模型)

在许多语音识别论文中,我看到了“帧的上下文窗口”这个术语。我对此不确定,但看起来你从一个话语中取了一个x帧,然后将这个帧与之前的5个帧和未来的5个帧连接起来。此上下文窗口的标签是中心框架。我说得对吗

多谢各位


(顺便说一句,数字5只是一个例子)

是的,这个术语从深度神经网络(DNN)应用到自动语音识别开始流行起来。例如,“11帧声学上下文窗口”表示将前5帧和后5帧的特征向量连接到当前帧的向量。但标签仍然是中心框架的标签。使用上下文窗口提高了DNN模型的性能,但以前没有使用HMMs(隐马尔可夫模型)

请参阅文章了解更多信息