Speech recognition 创建包含50000个单词的ARPA语言模型文件_Speech Recognition_Cmusphinx_N Gram_Language Model

Speech recognition 创建包含50000个单词的ARPA语言模型文件

speech-recognition

Speech recognition 创建包含50000个单词的ARPA语言模型文件,speech-recognition,cmusphinx,n-gram,language-model,Speech Recognition,Cmusphinx,N Gram,Language Model,我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将文本文件传递给CMU语言工具来生成语言模型。有没有其他链接可以为这么多单词提供语言模型？我想我应该回答这个问题，因为它有一些投票权，尽管基于Christina的其他问题，我认为这对她来说不是一个有用的答案，因为一个50000字的语言模型几乎肯定不会有一个可接受的字错误率或识别速度（或者很有可能是长时间的），目前使用这种语言模型格式的iOS应用程序内识别系统，由于硬件限制。我认为这是值得记录的，因为我认为这可能会对其他使用平台的

我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将文本文件传递给CMU语言工具来生成语言模型。有没有其他链接可以为这么多单词提供语言模型？

我想我应该回答这个问题，因为它有一些投票权，尽管基于Christina的其他问题，我认为这对她来说不是一个有用的答案，因为一个50000字的语言模型几乎肯定不会有一个可接受的字错误率或识别速度（或者很有可能是长时间的），目前使用这种语言模型格式的iOS应用程序内识别系统，由于硬件限制。我认为这是值得记录的，因为我认为这可能会对其他使用平台的人有所帮助，在这个平台上，在内存中保留这么大的词汇表是一件更可行的事情，并且可能对未来的设备型号也是一种可能

据我所知，没有一种基于网络的工具能像Sphinx知识库工具那样，能够读取50000字的纯文本语料库并返回ARPA语言模型。但是，您可以通过以下步骤获得一个已经完整的64000字的DMP语言模型（可以在命令行或其他平台实现中与Sphinx一起使用，方式与ARPA.lm文件相同）：

从CMU语音网站下载此语言模型：

该文件夹中有一个名为language_model.arpaformat.DMP的文件，它将成为您的语言模型

从CMU语音网站下载此文件，该网站将成为您的语音词典：

将cmu07a.dic的内容转换为所有大写字母

如果您愿意，还可以通过删除语料库语言_model.词汇表中找不到的任何单词来精简发音词典（这将是一个正则表达式问题）。这些文件用于Sphinx英语声学模型之一

如果希望使用50000单词的英语语言模型是出于进行某种广义大词汇量语音识别的想法，而不是因为需要使用非常特定的50000单词（例如，专门的医学词典或50000条目联系人列表），如果硬件能够处理，这种方法应该给出这些结果。可能会有一些Sphinx或Pocketsphinx设置需要更改，这将优化通过这种大小的模型进行的搜索。

您的训练语料库有多大？如果只有50000字，那就太小了

通常，您可以使用CMU或HTK提供的工具包

HTK语音识别工具包的详细文档如下：

以下还介绍了CMU的SLM工具包：

另见：

你可以在更大的语料库的基础上建立一个更通用的语言模型，并用它插入更小的语言模型。。e、一个后退的语言模型。。。但这不是一件小事

请参阅：'s_back-off_model

您的意思是说您需要一个英语单词集合吗？0.91的新版本具有创建语言模型文件的内置功能。这真的解决了我的问题。希望其他人都能从thisHi Christina那里得到帮助，很高兴听到OpenEars.91动态语言模型生成对您来说工作得很好，但我很惊讶地听到它可以生成50000字的语言模型。这是在设备上工作还是只是在模拟器上工作？我只是好奇地问，因为在我设计LanguageModelGenerator类时，我不知道它会被用于或可用于如此大的模型——我在考虑10-500字左右的特定于上下文的命令和控制语言模型。这不像我们想要的那样为任何单词创建新的语言模型，然后我们可以动态创建它。我还没有测试过这么多单词。那么，如何创建一个包含大约12k大量单词的语言模型呢。？？