Unicode 使用马尔可夫模型将所有CAP转换为混合情况及相关问题_Unicode_Nlp_Ambiguity_N Gram_Markov Models

Unicode 使用马尔可夫模型将所有CAP转换为混合情况及相关问题

unicode nlp

Unicode 使用马尔可夫模型将所有CAP转换为混合情况及相关问题,unicode,nlp,ambiguity,n-gram,markov-models,Unicode,Nlp,Ambiguity,N Gram,Markov Models,我一直在考虑使用马尔可夫技术将丢失的信息恢复到自然语言文本中将所有大写文字恢复为混合大小写将重音/变音符号恢复为本应使用但已转换为普通ASCII的语言将粗略的语音抄本转换回本地字母这似乎是从最难到最难的顺序。基本上，问题在于根据上下文解决歧义我可以使用Wiktionary作为字典，Wikipedia作为语料库，使用n-grams和隐马尔可夫模型来解决歧义我走对了吗？是否已经有一些服务、库或工具用于这类事情示例乔治在灌木丛中丢失了他的SIM卡⇨ 乔治在灌木丛中丢失了他的SIM

我一直在考虑使用马尔可夫技术将丢失的信息恢复到自然语言文本中

将所有大写文字恢复为混合大小写
将重音/变音符号恢复为本应使用但已转换为普通ASCII的语言
将粗略的语音抄本转换回本地字母

这似乎是从最难到最难的顺序。基本上，问题在于根据上下文解决歧义

我可以使用Wiktionary作为字典，Wikipedia作为语料库，使用n-grams和隐马尔可夫模型来解决歧义

我走对了吗？是否已经有一些服务、库或工具用于这类事情

示例

乔治在灌木丛中丢失了他的SIM卡⇨ 乔治在灌木丛中丢失了他的SIM卡
tantot il rit是一个峡谷部署者⇨ 塔托伊特·里塔峡谷酒店

将混合大小写还原为全部文本帽子

将重音/变音符号恢复为应该有它们的语言，但是已转换为普通ASCII

转换粗略的语音记录回到本地字母表