Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/sharepoint/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Statistics 隐马尔可夫模型.识别音素_Statistics_Signal Processing_Speech Recognition_Hidden Markov Models - Fatal编程技术网

Statistics 隐马尔可夫模型.识别音素

Statistics 隐马尔可夫模型.识别音素,statistics,signal-processing,speech-recognition,hidden-markov-models,Statistics,Signal Processing,Speech Recognition,Hidden Markov Models,我正在开发一个识别音素的项目,以便能够识别某人是否在说“是”或“否” 到目前为止,在这个项目中,我已经使用了零交叉点来识别这个人在说什么,这非常有效,而且看起来很简单,可以理解。然而,该项目需要一些增强,并且必须使用隐马尔可夫模型进行开发 我的问题是: 我想开发一个隐马尔可夫模型,而不删除我已经完成的工作。也就是说,我通过计算零交叉点的数量以及块的总和来去除不值得考虑的数据 我不明白为了能够识别这些音素,我需要什么样的数据来训练HMM。例如 通过过零,我发现: 是-过零起点较低,然后该值增加 否

我正在开发一个识别音素的项目,以便能够识别某人是否在说“是”或“否”

到目前为止,在这个项目中,我已经使用了零交叉点来识别这个人在说什么,这非常有效,而且看起来很简单,可以理解。然而,该项目需要一些增强,并且必须使用隐马尔可夫模型进行开发

我的问题是:

我想开发一个隐马尔可夫模型,而不删除我已经完成的工作。也就是说,我通过计算零交叉点的数量以及块的总和来去除不值得考虑的数据

我不明白为了能够识别这些音素,我需要什么样的数据来训练HMM。例如

通过过零,我发现:

是-过零起点较低,然后该值增加

否-零交叉点从低开始,然后不随值增加。

我可以训练我的HMM算法,让它解释这些值吗

或者有谁能建议一种方法,我可以训练HMM,使其能够识别样本中输入的单词


希望有人能帮忙:)

自动音素切分是一个棘手的问题,因此我将提供一些我喜欢的资源,这些资源涉及到不同层次的细节

本文件:

本文件:

这个资源非常好:

本书给出了一些音素识别的好例子:

这本书也很不错:

这些书很贵,但(在我看来)是值得的

我可以训练我的HMM算法,让它解释这些值吗

当然可以

或者有谁能建议一种方法,我可以训练HMM,使其能够识别样本中输入的单词

您只需要将过零率与MFCC特性(如14th feature)放在一个特性文件中,并使用任何标准的HMM训练工具包(如CMUSphinx或HTK)来训练HMM并使用它进行解码。有关更多信息,请参阅


嗯,对你的处境来说,似乎有点过分了。你有没有想过,比如说,逻辑回归?@Bjorn Roche-嘿,这一定是一个嗯。。这就是我的项目是基于anks的,你的回答:)那么,只是为了确认,是的,计算过零的值都是低值,所以我可以训练HMM,使它可以从低值开始,然后增加,而“否”则值可以从低值开始,然后不增加,这会起作用吗?还有,我是否可以扩展它并使用DFT来训练hmm?再次感谢!您可以使用HMM检测过零率中的时间模式,并使用过零特征值区分是和否。我不知道你说的“扩展这个”是什么意思。请详细说明。DFT和HMM培训并不是真正相关的事情。您好,我今天刚回来(当时正在准备我的平板电脑,所以我的回答有点不准确)。好的,所以,基本上,过零结果有一个模式(增加表示是,保持停滞表示否),但是如果我将这些值转换成不同的时域FFT,我可以用这些值训练HMM吗?它将使用FFT值进行训练,而不是像(12、14、53、64)这样的值。谢谢:)您不需要使用FFT将其转换为时域,FFT仅适用于音频数据。您可以将过零率与类似FFT的数据(如Mel倒谱)结合使用,以改进检测。或者您可以单独使用过零,这只是将过零率数据转换为标准特征文件格式的任务。