Algorithm 查找文本副本-易于实现

Algorithm 查找文本副本-易于实现,algorithm,text,duplicates,Algorithm,Text,Duplicates,我正在寻找一些很好的易于实现的算法,以找到重复的文本在我的cms。 事实上,我正在用删除的空格将文本保存到额外的列中,并将所有字符设置为小写,这样如果它们在空格和字母大小写方面存在差异,我就可以找到重复的字符,但这还不够 如何处理两个文本相差几个字符的情况,并且我希望它们被识别为重复的文本?解决此问题的简单方法是使用Soundex检查。您可以将每个单词转换为对应的Soundex,删除小词,如果记录相同,则为匹配。粗糙,但有效。阅读有关“编辑距离”的内容。

我正在寻找一些很好的易于实现的算法,以找到重复的文本在我的cms。 事实上,我正在用删除的空格将文本保存到额外的列中,并将所有字符设置为小写,这样如果它们在空格和字母大小写方面存在差异,我就可以找到重复的字符,但这还不够


如何处理两个文本相差几个字符的情况,并且我希望它们被识别为重复的文本?

解决此问题的简单方法是使用Soundex检查。您可以将每个单词转换为对应的Soundex,删除小词,如果记录相同,则为匹配。粗糙,但有效。

阅读有关“编辑距离”的内容。