Python 如何使用语音识别的音频信号数据集训练HMM?
我读过一些关于HMM和MFCC的期刊和论文,但我仍然对它如何与我的数据集(句子音频数据集)一步一步地工作感到困惑 我的数据集示例(音频表单):Python 如何使用语音识别的音频信号数据集训练HMM?,python,tensorflow,speech-recognition,mfcc,hmmlearn,Python,Tensorflow,Speech Recognition,Mfcc,Hmmlearn,我读过一些关于HMM和MFCC的期刊和论文,但我仍然对它如何与我的数据集(句子音频数据集)一步一步地工作感到困惑 我的数据集示例(音频表单): 你好,早上好 祝你考试好运 等 约343个音频数据和20个扬声器(6800个音频数据) 我只知道: 我的句子数据集用于获得转换概率 嗯,是音素 使用39个MFCC特征来训练HMM模型 我的问题是: 我需要把我的句子切碎成单词还是仅仅用句子来训练 嗯,模特 我需要火车上的音素数据集吗?如果是的话,我需要训练它吗?如果不是,我的程序如何识别输入的音素 我
- 你好,早上好
- 祝你考试好运
- 等 约343个音频数据和20个扬声器(6800个音频数据)
建立你的音素例子,并用它们来训练一个简单的HMM模型——你不需要对音素之间的转换建模。一旦你的隐藏状态有了一些关于音素的信息,你可以继续对孤立的单词和句子进行训练。你有音素的时间分段吗?如果我继续对我的句子进行训练,我的程序可以预测单词还是仅仅预测句子?算法的运行机制并不真正知道单词和句子之间的区别,除非为单词转换引入隐藏状态。HMM模拟“序列”,所以如果它适用于句子,它也适用于单词。