Search 用于搜索查询更正的英语词汇

Search 用于搜索查询更正的英语词汇,search,dictionary,nlp,lexicon,Search,Dictionary,Nlp,Lexicon,通过实现“”中描述的方法,我正在为搜索引擎查询构建拼写校正器 高级方法如下:对于给定的查询,找出每个单字图和双字图的可能修正候选(查询日志中某个编辑距离内的单词),然后执行修改的维特比搜索,以找到给定双字图频率的最可能的候选序列。重复此过程,直到序列具有最大概率 对维特比搜索的修改是这样的:如果两个相邻的单词都在可信词典中找到,最多可以更正一个。这对于避免将拼写正确的单个单词查询更正为频率更高的单词尤其重要 我的问题是在哪里可以找到这样的词典。它应该是英文的,并且包含可能出现在搜索查询中的专有名

通过实现“”中描述的方法,我正在为搜索引擎查询构建拼写校正器

高级方法如下:对于给定的查询,找出每个单字图和双字图的可能修正候选(查询日志中某个编辑距离内的单词),然后执行修改的维特比搜索,以找到给定双字图频率的最可能的候选序列。重复此过程,直到序列具有最大概率

对维特比搜索的修改是这样的:如果两个相邻的单词都在可信词典中找到,最多可以更正一个。这对于避免将拼写正确的单个单词查询更正为频率更高的单词尤其重要

我的问题是在哪里可以找到这样的词典。它应该是英文的,并且包含可能出现在搜索查询中的专有名词(名字/姓氏、地名、品牌名称等)以及常见和不常见的英语单词。即使是朝着正确的方向推进也会很有用


此外,如果有人正在阅读本文并对本文提供的方法提出改进建议,我也愿意接受这些建议,因为这是我第一次涉足NLP。

为此目的最好的词典可能是Google Web 1T 5-gram数据集

不幸的是,除非你的大学是最不发达国家的成员,否则它不是免费的

您也可以在诸如Python NLTK之类的包中尝试使用语料库,但谷歌语料库似乎是最适合您的,因为它已经与搜索查询相关