Statistics 隐马尔可夫模型.识别音素_Statistics_Signal Processing_Speech Recognition_Hidden Markov Models

Statistics 隐马尔可夫模型.识别音素

statistics speech-recognition

Statistics 隐马尔可夫模型.识别音素,statistics,signal-processing,speech-recognition,hidden-markov-models,Statistics,Signal Processing,Speech Recognition,Hidden Markov Models,我正在开发一个识别音素的项目，以便能够识别某人是否在说“是”或“否” 到目前为止，在这个项目中，我已经使用了零交叉点来识别这个人在说什么，这非常有效，而且看起来很简单，可以理解。然而，该项目需要一些增强，并且必须使用隐马尔可夫模型进行开发我的问题是：我想开发一个隐马尔可夫模型，而不删除我已经完成的工作。也就是说，我通过计算零交叉点的数量以及块的总和来去除不值得考虑的数据我不明白为了能够识别这些音素，我需要什么样的数据来训练HMM。例如通过过零，我发现：是-过零起点较低，然后该值增加否

我正在开发一个识别音素的项目，以便能够识别某人是否在说“是”或“否”

到目前为止，在这个项目中，我已经使用了零交叉点来识别这个人在说什么，这非常有效，而且看起来很简单，可以理解。然而，该项目需要一些增强，并且必须使用隐马尔可夫模型进行开发

我的问题是：

我想开发一个隐马尔可夫模型，而不删除我已经完成的工作。也就是说，我通过计算零交叉点的数量以及块的总和来去除不值得考虑的数据

我不明白为了能够识别这些音素，我需要什么样的数据来训练HMM。例如

通过过零，我发现：

是-过零起点较低，然后该值增加

否-零交叉点从低开始，然后不随值增加。

我可以训练我的HMM算法，让它解释这些值吗

或者有谁能建议一种方法，我可以训练HMM，使其能够识别样本中输入的单词

希望有人能帮忙：）

自动音素切分是一个棘手的问题，因此我将提供一些我喜欢的资源，这些资源涉及到不同层次的细节

本文件：

这个资源非常好：

本书给出了一些音素识别的好例子：

这本书也很不错：

这些书很贵，但（在我看来）是值得的

我可以训练我的HMM算法，让它解释这些值吗

当然可以

或者有谁能建议一种方法，我可以训练HMM，使其能够识别样本中输入的单词

您只需要将过零率与MFCC特性（如14th feature）放在一个特性文件中，并使用任何标准的HMM训练工具包（如CMUSphinx或HTK）来训练HMM并使用它进行解码。有关更多信息，请参阅

或

嗯，对你的处境来说，似乎有点过分了。你有没有想过，比如说，逻辑回归？@Bjorn Roche-嘿，这一定是一个嗯。。这就是我的项目是基于anks的，你的回答：）那么，只是为了确认，是的，计算过零的值都是低值，所以我可以训练HMM，使它可以从低值开始，然后增加，而“否”则值可以从低值开始，然后不增加，这会起作用吗？还有，我是否可以扩展它并使用DFT来训练hmm？再次感谢！您可以使用HMM检测过零率中的时间模式，并使用过零特征值区分是和否。我不知道你说的“扩展这个”是什么意思。请详细说明。DFT和HMM培训并不是真正相关的事情。您好，我今天刚回来（当时正在准备我的平板电脑，所以我的回答有点不准确）。好的，所以，基本上，过零结果有一个模式（增加表示是，保持停滞表示否），但是如果我将这些值转换成不同的时域FFT，我可以用这些值训练HMM吗？它将使用FFT值进行训练，而不是像（12、14、53、64）这样的值。谢谢：）您不需要使用FFT将其转换为时域，FFT仅适用于音频数据。您可以将过零率与类似FFT的数据（如Mel倒谱）结合使用，以改进检测。或者您可以单独使用过零，这只是将过零率数据转换为标准特征文件格式的任务。