Algorithm 什么是';重复搜索算法?

Algorithm 什么是';重复搜索算法?,algorithm,duplicates,Algorithm,Duplicates,我有一个约1200个“唯一”字符串的列表(我称之为“类别”),每个字符串都与另外5-30个字符串(我称之为“项目”)的列表相关联。在过去15年左右的时间里,这些信息都是手工输入的,现在我们正试图将这些信息输入到一个可重用的类别“库”中,其中包含项目列表。有人将不得不手工清理这个图书馆,但我想给他们一些帮助 我希望能够向用户展示类别和项目的可能重复项,但我不确定如何定义“可能重复项”。大多数模糊搜索算法似乎假设单词可能拼写错误,或者可能使用同义词或同音词,但在我的例子中,更可能的情况是相同的单词只

我有一个约1200个“唯一”字符串的列表(我称之为“类别”),每个字符串都与另外5-30个字符串(我称之为“项目”)的列表相关联。在过去15年左右的时间里,这些信息都是手工输入的,现在我们正试图将这些信息输入到一个可重用的类别“库”中,其中包含项目列表。有人将不得不手工清理这个图书馆,但我想给他们一些帮助

我希望能够向用户展示类别和项目的可能重复项,但我不确定如何定义“可能重复项”。大多数模糊搜索算法似乎假设单词可能拼写错误,或者可能使用同义词或同音词,但在我的例子中,更可能的情况是相同的单词只是顺序不同,或者一些单词由于法律原因被添加了一年

我希望能够给他们一个列表,如:

The fox jumped
The quick fox jumped over a log
A quick brown fox jumped over a mushroom-covered log
A log sits where a fox jumped over it
他们不太可能使用同义词,也不太可能单词拼写错误,但很可能术语的顺序不正确

所以“相似问题”算法似乎能做到这一点,而且它似乎比我能想到的“哑巴”算法更快更有效。谁能告诉我怎么做?我将用C#实现它,数据存储在SQL Server中,所以如果有什么东西我可以使用的话,我也将非常感谢这些信息