Dictionary 如何将英文缩写形式替换为词典形式

Dictionary 如何将英文缩写形式替换为词典形式,dictionary,text,nlp,token,word,Dictionary,Text,Nlp,Token,Word,我正在开发一个分析英语文本的系统:我使用斯坦福核心nlp从整个文档中造句,并从句子中造句。我还使用maxent标记器获取令牌pos标记。 现在,考虑到我使用这个语料库来构建一个有监督的分类器,如果我能将任何像‘re’、s、havin、sayin’这样的词替换成它的标准形式(are、is、having、sayin),那就太好了。我一直在找一些英语词典档案,但我不知道如何使用它。有许多不同的案例需要考虑,我不认为这是一件容易的任务:有没有类似的工作或整个项目我可以使用?p> 想法: 一) 对文本子集

我正在开发一个分析英语文本的系统:我使用斯坦福核心nlp从整个文档中造句,并从句子中造句。我还使用maxent标记器获取令牌pos标记。 现在,考虑到我使用这个语料库来构建一个有监督的分类器,如果我能将任何像‘re’、s、havin、sayin’这样的词替换成它的标准形式(are、is、having、sayin),那就太好了。我一直在找一些英语词典档案,但我不知道如何使用它。有许多不同的案例需要考虑,我不认为这是一件容易的任务:有没有类似的工作或整个项目我可以使用?p> 想法:

一) 对文本子集使用字符串编辑距离,并尝试使用编辑距离与词典中的现有单词匹配词典中不存在的单词

二) 你有很多这样的例子的主要特点是,它们与正确的拼写只有1个字符不同。因此,我建议对于那些与词典条目不匹配的单词,尝试将所有英文字符添加到前面或后面,并在词典中查找结果单词。这在一开始是非常昂贵的,但是如果您在某个时候跟踪查找表(re->are)中的那些拼写错误,那么您的查找表中将有99.99%的常见拼写错误(或您称之为任何拼写错误)及其实际正确的拼写

三) 在适当且干净的英语文本(即报纸文章)上训练单词级别的2-gram或3-gram语言模型,然后在你拥有的整个语料库中运行它,并查看那些你的语言模型认为是未知单词的单词(这意味着它在训练阶段没有看到它们),根据语言模型,最可能的单词是什么。最有可能的语言模型top-10预测将是正确拼写的单词