Speech recognition 语音识别中HMM观测序列长度的确定

Speech recognition 语音识别中HMM观测序列长度的确定,speech-recognition,speech-to-text,hidden-markov-models,markov-chains,viterbi,Speech Recognition,Speech To Text,Hidden Markov Models,Markov Chains,Viterbi,我正在学习如何使用隐马尔可夫模型进行语音识别,我有一个问题。似乎大多数使用HMM的讨论都考虑了一个已知的观测序列:[O1,O2,O3,…,OT ],其中T是已知的数。然而,如果我们试图在语音上实时使用经过训练的HMM,或者在一个WAV文件中,有人一句接一句地说,那么如何准确地选择T的值呢?换句话说,一个人如何知道说话人什么时候结束一句话,什么时候开始另一句话?用于语音识别的实用HMM是否只使用一个固定的T值,并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列?或者有没有更

我正在学习如何使用隐马尔可夫模型进行语音识别,我有一个问题。似乎大多数使用HMM的讨论都考虑了一个已知的观测序列:[O1,O2,O3,…,OT ],其中T是已知的数。然而,如果我们试图在语音上实时使用经过训练的HMM,或者在一个WAV文件中,有人一句接一句地说,那么如何准确地选择T的值呢?换句话说,一个人如何知道说话人什么时候结束一句话,什么时候开始另一句话?用于语音识别的实用HMM是否只使用一个固定的T值,并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列?或者有没有更好的方法在任何时间动态选择T

用于语音识别的实用HMM是否只使用一个固定的T值,并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列

维特比解码算法是逐帧工作的,所以你只需在帧上迭代,你就可以无限期地迭代,直到回溯矩阵填满所有内存

训练算法考虑训练前准备的音频,通常为1-30秒。对于培训,音频长度已经知道

一个人怎么知道说话人什么时候结束一句话,什么时候开始另一句话

这里有不同的策略。译码器搜索静默来环绕解码。沉默并不一定意味着句子之间的停顿,句子之间根本不可能有停顿。句子的中间也可能有断裂。 因此,寻找静音解码器可以使用独立的语音活动检测算法,在VAD检测到静音时中断,或者解码器可以分析回溯信息以确定是否出现静音。第二种方法更可靠一些

用于语音识别的实用HMM是否只使用一个固定的T值,并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列

维特比解码算法是逐帧工作的,所以你只需在帧上迭代,你就可以无限期地迭代,直到回溯矩阵填满所有内存

训练算法考虑训练前准备的音频,通常为1-30秒。对于培训,音频长度已经知道

一个人怎么知道说话人什么时候结束一句话,什么时候开始另一句话

这里有不同的策略。译码器搜索静默来环绕解码。沉默并不一定意味着句子之间的停顿,句子之间根本不可能有停顿。句子的中间也可能有断裂。 因此,寻找静音解码器可以使用独立的语音活动检测算法,在VAD检测到静音时中断,或者解码器可以分析回溯信息以确定是否出现静音。第二种方法更可靠一些