Nlp 模糊句子搜索算法

Nlp 模糊句子搜索算法,nlp,fuzzy-search,Nlp,Fuzzy Search,假设我有一组平均长度为7-20个单词的短语,大约10000个,我想在其中找到一些给定的短语。我正在寻找的短语可能有一些错误-例如,遗漏了一个或两个单词,有些单词放错了位置,或者一些随机单词-例如,我的数据库包含“当我骑着我的红色自行车时,我看到了克里斯蒂娜”,我希望它更像“当我骑着我的蓝色自行车时,看到了克里斯蒂娜”,或者“我骑着我的自行车,我看到了克里斯蒂娜和玛丽安”。解决这个问题的好方法是什么?我知道Levenhstein的距离,我也认为这个问题可能没有简单、好的解决方案。一个好的文本搜索引

假设我有一组平均长度为7-20个单词的短语,大约10000个,我想在其中找到一些给定的短语。我正在寻找的短语可能有一些错误-例如,遗漏了一个或两个单词,有些单词放错了位置,或者一些随机单词-例如,我的数据库包含“当我骑着我的红色自行车时,我看到了克里斯蒂娜”,我希望它更像“当我骑着我的蓝色自行车时,看到了克里斯蒂娜”,或者“我骑着我的自行车,我看到了克里斯蒂娜和玛丽安”。解决这个问题的好方法是什么?我知道Levenhstein的距离,我也认为这个问题可能没有简单、好的解决方案。

一个好的文本搜索引擎将提供您所描述的功能,fsh。一种典型的方法是创建一个查询,该查询匹配出现的任何单词,并使用基于彼此相邻出现的单词数量的权重对结果进行排序,权重与其出现的概率成反比,因为不常见的单词不太可能偶然同时出现。这类东西有一个完整的理论叫做信息检索,但也许你知道。此外,您希望通过规范化大小写、标点符号等并应用一些基本的语言转换(词干分析),以及在某些情况下引入同义词词典,特别是在有领域知识可用于条件的情况下,确保单词级模糊性得到解释


如果你对这些东西感兴趣,试试开源搜索引擎,从2009年的角度给出一个合理的调查,并对这个主题进行详细的介绍。

你想对结果做些什么?只要识别它们就好了?最好是,我想把它们当作键并检索相应的值-把数据库想象成一本书中的句子,我想找到相应的页面/章节。还要寻找剽窃检测器-你的这听起来是一个很好的用例。检查它们的好主意,但他们必须使用一些算法和方法——这就是我所问的。