Speech recognition 语言模型与狮身人面像4

Speech recognition 语言模型与狮身人面像4,speech-recognition,sphinx4,Speech Recognition,Sphinx4,我是斯芬克斯的新手,我正在尝试编写一个程序,该程序将识别音频文件中只包含一个单字的单词,然后对可信度进行评分。对于这样一个项目,语言模型似乎没有必要,因为我只是想识别一个单词,但斯芬克斯似乎需要一个语言模型来做任何事情。这是可能的吗?不幸的是,Sphinx(以及任何其他ASR系统)需要一个语言模型来做任何事情。原因是语言模型用于语音维特比解码,需要为许多文本可能性分配分数 我假设您正在使用的音频文件可以包含一组可能的单词中的一个(因为我不确定如果音频文件都包含相同的单词会有什么意义…)。在这种情

我是斯芬克斯的新手,我正在尝试编写一个程序,该程序将识别音频文件中只包含一个单字的单词,然后对可信度进行评分。对于这样一个项目,语言模型似乎没有必要,因为我只是想识别一个单词,但斯芬克斯似乎需要一个语言模型来做任何事情。这是可能的吗?

不幸的是,Sphinx(以及任何其他ASR系统)需要一个语言模型来做任何事情。原因是语言模型用于语音维特比解码,需要为许多文本可能性分配分数

我假设您正在使用的音频文件可以包含一组可能的单词中的一个(因为我不确定如果音频文件都包含相同的单词会有什么意义…)。在这种情况下,您可以使用语法而不是统计语言模型。一般来说,语法对于词汇量小的任务很有效

要获取置信度值,请参阅类ConfidenceScorer的文档,该类可以对识别器的结果进行评分

如果音频文件可能是许多未知单词中的一个,而您只想识别您关心的单个单词(即,您不知道音频文件中还会有哪些其他单词,或者它的集合足够大,您不想指定语法中的所有单词),那么您将面临一个相当困难的任务。老实说,我在语音识别领域工作过,我不完全确定人们会怎么做。。您可以尝试指定一组其他具有不同语音特征的单词(即,不同的音节长度、不同的声音类型),也许它可以正常工作。如果是这种情况,让我知道,我可以想出一些其他潜在的解决方案,但我猜你的任务是从一个小集合中识别一个单词