Python 如何使用语音识别的音频信号数据集训练HMM?

Python 如何使用语音识别的音频信号数据集训练HMM?,python,tensorflow,speech-recognition,mfcc,hmmlearn,Python,Tensorflow,Speech Recognition,Mfcc,Hmmlearn,我读过一些关于HMM和MFCC的期刊和论文,但我仍然对它如何与我的数据集(句子音频数据集)一步一步地工作感到困惑 我的数据集示例(音频表单): 你好,早上好 祝你考试好运 等 约343个音频数据和20个扬声器(6800个音频数据) 我只知道: 我的句子数据集用于获得转换概率 嗯,是音素 使用39个MFCC特征来训练HMM模型 我的问题是: 我需要把我的句子切碎成单词还是仅仅用句子来训练 嗯,模特 我需要火车上的音素数据集吗?如果是的话,我需要训练它吗?如果不是,我的程序如何识别输入的音素 我

我读过一些关于HMM和MFCC的期刊和论文,但我仍然对它如何与我的数据集(句子音频数据集)一步一步地工作感到困惑

我的数据集示例(音频表单):

  • 你好,早上好
  • 祝你考试好运
  • 等 约343个音频数据和20个扬声器(6800个音频数据)
我只知道:

  • 我的句子数据集用于获得转换概率
  • 嗯,是音素
  • 使用39个MFCC特征来训练HMM模型
  • 我的问题是:

  • 我需要把我的句子切碎成单词还是仅仅用句子来训练 嗯,模特
  • 我需要火车上的音素数据集吗?如果是的话,我需要训练它吗?如果不是,我的程序如何识别输入的音素
  • 我必须先做哪些步骤
  • 注意:我使用python,我使用hmmlearn和python_speech_特性作为我的库

  • 我需要把我的句子切分成单词还是仅仅用句子来训练HMM模型
  • 理论上你只需要句子和音素。但是,使用单独的单词可能对您的模型有用(它会增加培训数据的大小)

  • 我需要火车上的音素数据集吗?如果是的话,我需要训练它吗?如果不是,我的程序如何识别输入的音素
  • 你需要音素,否则,如果你的模型没有任何孤立音素的例子,它将很难找到正确的音素分段。您应该首先在孤立的音素上训练HMM状态,然后添加其余的数据。如果你有足够的数据,你的模型也许能够在没有孤立音素例子的情况下学习,但我不会在这方面做得更好

  • 我必须先做哪些步骤

  • 建立你的音素例子,并用它们来训练一个简单的HMM模型——你不需要对音素之间的转换建模。一旦你的隐藏状态有了一些关于音素的信息,你可以继续对孤立的单词和句子进行训练。

    你有音素的时间分段吗?如果我继续对我的句子进行训练,我的程序可以预测单词还是仅仅预测句子?算法的运行机制并不真正知道单词和句子之间的区别,除非为单词转换引入隐藏状态。HMM模拟“序列”,所以如果它适用于句子,它也适用于单词。