Python 将Lmtool合并到PocketSphinx中?
我正在尝试创建一种简单的方法,将新关键字添加到PocketSphinx中。其想法是使用一个临时文本文件(通过脚本)将自动添加的单词(或短语)添加到Python 将Lmtool合并到PocketSphinx中?,python,pocketsphinx,Python,Pocketsphinx,我正在尝试创建一种简单的方法,将新关键字添加到PocketSphinx中。其想法是使用一个临时文本文件(通过脚本)将自动添加的单词(或短语)添加到corpus.txt、dictionary.dic和language\u model.lm 目前最好的方法似乎是使用lmtool,然后用更新的版本替换前面提到的文件。然而,这带来了三个问题: Lmtool对于大型库来说速度较慢,因此随着添加更多的单词,处理过程将以指数级的速度变慢 Lmtool需要一个半可靠的internet连接才能工作,我希望能够在脱
corpus.txt
、dictionary.dic
和language\u model.lm
目前最好的方法似乎是使用lmtool,然后用更新的版本替换前面提到的文件。然而,这带来了三个问题:
input.txt
)获取输入,处理它们并将内容打印到三个临时文本文件(dic.txt
,lm.txt
,corp.txt
)中
最后一步是运行一个脚本,该脚本将:
corp.txt
中获取输出,并将其添加到corpus.txt
的末尾dictionary.dic
并在dic.txt
中添加任何新词language\u model.lm
,将新术语包含在lm.txt
中任何帮助都将不胜感激。如果您想在Raspberry Pi上本地生成dict和语言模型(至少2B型),您几乎没有选择余地 对于语言模型生成,您可以使用
有关更多详细信息(用法、如何编译等…),请查阅相应工具包的文档。第三个选项是在C+flite中实现的lmtool的自定义代码,用于g2p转换。它是在这里实现的,但可能不容易在Linux上编译:dict生成的第四个选项(可能)是使用espeak。首先使用IPA编写音素,然后将其转换为ARPABet。当然,你需要一个IPA到ARPabe的转换脚本。我会看看那些建议。到目前为止,CMUCLMTK下载得还不错,但按照Jasper网站上Phonetisaurus的下载说明进行操作会导致一个无法解决的未满足依赖性错误。如果您正在查找旧存档,请从下载Phonetisaurus