Algorithm 什么是'；重复搜索算法？_Algorithm_Duplicates

Algorithm 什么是'；重复搜索算法？

algorithm

Algorithm 什么是'；重复搜索算法？,algorithm,duplicates,Algorithm,Duplicates,我有一个约1200个“唯一”字符串的列表（我称之为“类别”），每个字符串都与另外5-30个字符串（我称之为“项目”）的列表相关联。在过去15年左右的时间里，这些信息都是手工输入的，现在我们正试图将这些信息输入到一个可重用的类别“库”中，其中包含项目列表。有人将不得不手工清理这个图书馆，但我想给他们一些帮助我希望能够向用户展示类别和项目的可能重复项，但我不确定如何定义“可能重复项”。大多数模糊搜索算法似乎假设单词可能拼写错误，或者可能使用同义词或同音词，但在我的例子中，更可能的情况是相同的单词只

我有一个约1200个“唯一”字符串的列表（我称之为“类别”），每个字符串都与另外5-30个字符串（我称之为“项目”）的列表相关联。在过去15年左右的时间里，这些信息都是手工输入的，现在我们正试图将这些信息输入到一个可重用的类别“库”中，其中包含项目列表。有人将不得不手工清理这个图书馆，但我想给他们一些帮助

我希望能够向用户展示类别和项目的可能重复项，但我不确定如何定义“可能重复项”。大多数模糊搜索算法似乎假设单词可能拼写错误，或者可能使用同义词或同音词，但在我的例子中，更可能的情况是相同的单词只是顺序不同，或者一些单词由于法律原因被添加了一年

我希望能够给他们一个列表，如：

The fox jumped
The quick fox jumped over a log
A quick brown fox jumped over a mushroom-covered log
A log sits where a fox jumped over it

他们不太可能使用同义词，也不太可能单词拼写错误，但很可能术语的顺序不正确

所以“相似问题”算法似乎能做到这一点，而且它似乎比我能想到的“哑巴”算法更快更有效。谁能告诉我怎么做？我将用C#实现它，数据存储在SQL Server中，所以如果有什么东西我可以使用的话，我也将非常感谢这些信息