Speech recognition 创建包含50000个单词的ARPA语言模型文件

Speech recognition 创建包含50000个单词的ARPA语言模型文件,speech-recognition,cmusphinx,n-gram,language-model,Speech Recognition,Cmusphinx,N Gram,Language Model,我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将文本文件传递给CMU语言工具来生成语言模型。有没有其他链接可以为这么多单词提供语言模型?我想我应该回答这个问题,因为它有一些投票权,尽管基于Christina的其他问题,我认为这对她来说不是一个有用的答案,因为一个50000字的语言模型几乎肯定不会有一个可接受的字错误率或识别速度(或者很有可能是长时间的),目前使用这种语言模型格式的iOS应用程序内识别系统,由于硬件限制。我认为这是值得记录的,因为我认为这可能会对其他使用平台的

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将文本文件传递给CMU语言工具来生成语言模型。有没有其他链接可以为这么多单词提供语言模型?

我想我应该回答这个问题,因为它有一些投票权,尽管基于Christina的其他问题,我认为这对她来说不是一个有用的答案,因为一个50000字的语言模型几乎肯定不会有一个可接受的字错误率或识别速度(或者很有可能是长时间的),目前使用这种语言模型格式的iOS应用程序内识别系统,由于硬件限制。我认为这是值得记录的,因为我认为这可能会对其他使用平台的人有所帮助,在这个平台上,在内存中保留这么大的词汇表是一件更可行的事情,并且可能对未来的设备型号也是一种可能

据我所知,没有一种基于网络的工具能像Sphinx知识库工具那样,能够读取50000字的纯文本语料库并返回ARPA语言模型。但是,您可以通过以下步骤获得一个已经完整的64000字的DMP语言模型(可以在命令行或其他平台实现中与Sphinx一起使用,方式与ARPA.lm文件相同):

  • 从CMU语音网站下载此语言模型:
  • 该文件夹中有一个名为language_model.arpaformat.DMP的文件,它将成为您的语言模型

  • 从CMU语音网站下载此文件,该网站将成为您的语音词典:
  • 将cmu07a.dic的内容转换为所有大写字母

    如果您愿意,还可以通过删除语料库语言_model.词汇表中找不到的任何单词来精简发音词典(这将是一个正则表达式问题)。这些文件用于Sphinx英语声学模型之一


    如果希望使用50000单词的英语语言模型是出于进行某种广义大词汇量语音识别的想法,而不是因为需要使用非常特定的50000单词(例如,专门的医学词典或50000条目联系人列表),如果硬件能够处理,这种方法应该给出这些结果。可能会有一些Sphinx或Pocketsphinx设置需要更改,这将优化通过这种大小的模型进行的搜索。

    您的训练语料库有多大?如果只有50000字,那就太小了

    通常,您可以使用CMU或HTK提供的工具包

    HTK语音识别工具包的详细文档如下:

    以下还介绍了CMU的SLM工具包:

    另见:

    你可以在更大的语料库的基础上建立一个更通用的语言模型,并用它插入更小的语言模型。。e、 一个后退的语言模型。。。但这不是一件小事


    请参阅:'s_back-off_model

    您的意思是说您需要一个英语单词集合吗?0.91的新版本具有创建语言模型文件的内置功能。这真的解决了我的问题。希望其他人都能从thisHi Christina那里得到帮助,很高兴听到OpenEars.91动态语言模型生成对您来说工作得很好,但我很惊讶地听到它可以生成50000字的语言模型。这是在设备上工作还是只是在模拟器上工作?我只是好奇地问,因为在我设计LanguageModelGenerator类时,我不知道它会被用于或可用于如此大的模型——我在考虑10-500字左右的特定于上下文的命令和控制语言模型。这不像我们想要的那样为任何单词创建新的语言模型,然后我们可以动态创建它。我还没有测试过这么多单词。那么,如何创建一个包含大约12k大量单词的语言模型呢。??