Speech recognition 语音识别中HMM观测序列长度的确定_Speech Recognition_Speech To Text_Hidden Markov Models_Markov Chains_Viterbi

Speech recognition 语音识别中HMM观测序列长度的确定

speech-recognition

Speech recognition 语音识别中HMM观测序列长度的确定,speech-recognition,speech-to-text,hidden-markov-models,markov-chains,viterbi,Speech Recognition,Speech To Text,Hidden Markov Models,Markov Chains,Viterbi,我正在学习如何使用隐马尔可夫模型进行语音识别，我有一个问题。似乎大多数使用HMM的讨论都考虑了一个已知的观测序列：[O1，O2，O3，…，OT ]，其中T是已知的数。然而，如果我们试图在语音上实时使用经过训练的HMM，或者在一个WAV文件中，有人一句接一句地说，那么如何准确地选择T的值呢？换句话说，一个人如何知道说话人什么时候结束一句话，什么时候开始另一句话？用于语音识别的实用HMM是否只使用一个固定的T值，并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列？或者有没有更

我正在学习如何使用隐马尔可夫模型进行语音识别，我有一个问题。似乎大多数使用HMM的讨论都考虑了一个已知的观测序列：[O1，O2，O3，…，OT ]，其中T是已知的数。然而，如果我们试图在语音上实时使用经过训练的HMM，或者在一个WAV文件中，有人一句接一句地说，那么如何准确地选择T的值呢？换句话说，一个人如何知道说话人什么时候结束一句话，什么时候开始另一句话？用于语音识别的实用HMM是否只使用一个固定的T值，并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列？或者有没有更好的方法在任何时间动态选择T

用于语音识别的实用HMM是否只使用一个固定的T值，并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列

维特比解码算法是逐帧工作的，所以你只需在帧上迭代，你就可以无限期地迭代，直到回溯矩阵填满所有内存

训练算法考虑训练前准备的音频，通常为1-30秒。对于培训，音频长度已经知道

一个人怎么知道说话人什么时候结束一句话，什么时候开始另一句话

这里有不同的策略。译码器搜索静默来环绕解码。沉默并不一定意味着句子之间的停顿，句子之间根本不可能有停顿。句子的中间也可能有断裂。因此，寻找静音解码器可以使用独立的语音活动检测算法，在VAD检测到静音时中断，或者解码器可以分析回溯信息以确定是否出现静音。第二种方法更可靠一些

用于语音识别的实用HMM是否只使用一个固定的T值，并使用一个固定大小的长度为T的窗口周期性地重新计算当前观察到的最佳状态序列

维特比解码算法是逐帧工作的，所以你只需在帧上迭代，你就可以无限期地迭代，直到回溯矩阵填满所有内存

训练算法考虑训练前准备的音频，通常为1-30秒。对于培训，音频长度已经知道

一个人怎么知道说话人什么时候结束一句话，什么时候开始另一句话