Unicode 口袋狮身人面像僧伽罗语模型问题

Unicode 口袋狮身人面像僧伽罗语模型问题,unicode,speech-recognition,pocketsphinx,Unicode,Speech Recognition,Pocketsphinx,我正在尝试为僧伽罗语创建一个语音识别系统。我试图创建一个语言模型,但遵循中的答案。我在windows上使用了联机lmtool和cmuclmtk-0.7-win32。我的输入文件如下所示 එක eka දෙක de ka තුන thu na හතර ha tha ra පහ pa ha හය ha iya හත ha tha අට ah ta නවය na wa ya AHTA AE T AH DEKA D AH K AA EKA EH K AH HAIYA HH E

我正在尝试为僧伽罗语创建一个语音识别系统。我试图创建一个语言模型,但遵循中的答案。我在windows上使用了联机lmtool和cmuclmtk-0.7-win32。我的输入文件如下所示

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya
AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
අට  
තුන   
දෙක   
නවය   
පහ  
හත  
හතර   
හය  
එක   
提交给lmtool和cmuclmtk后,我得到如下输出:

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya
AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
අට  
තුන   
දෙක   
නවය   
පහ  
හත  
හතර   
හය  
එක   

.dic和.lm文件都包含上述字符。我觉得这是一些垃圾角色。我做错了什么才得到这个?

你做错了一切

对于语料库的构建,您需要一个文本文件,而不是字典文件。您可以单独创建字典

你不应该在你的语言中使用在线工具。它只适用于英语


要从文本中训练语言模型,您应该使用srilm。

错误的文件看起来模糊地像是用传统的8位编码查看的utf-8,或者可能是错误地从错误指定为8位编码的文件重新编码到utf-8。如果无法访问原始字节,我们无法真正判断。检查一些背景和诊断提示。我使用了文本格式的SRILM和语言文件,但结果仍然相同。我遵循了这个教程,它是为中国人准备的。为什么我会有那些垃圾角色?我的电脑有字体问题吗?或者SRILM不支持僧伽罗语吗?您可以共享您的文件,这样我就可以查看了。没有文件,很难帮助您。我用来创建LM的文本文件:SRILM生成的文件:命令I在Cygwin中使用:./ngram count-text sinhala.txt-order 3-write NPFEOT0001.count-unk我的OS win8.1 64位文件看起来是正确的,不确定为什么您认为字符是乱码。您需要使用支持UTF-8的好编辑器来查看文件,例如Notepad++Awesome Notepad++就做到了这一点。从现在起,我将使用记事本++作为默认编辑器。