Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/jpa/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Text 如何检测具有模糊性的重复文本_Text_Diff_Duplicates_Duplicate Data_Duplication - Fatal编程技术网

Text 如何检测具有模糊性的重复文本

Text 如何检测具有模糊性的重复文本,text,diff,duplicates,duplicate-data,duplication,Text,Diff,Duplicates,Duplicate Data,Duplication,几年前,我写博客的时候是为了在我看到它们之前删除重复的博客文章 在阅读了实现所基于的论文之后,我希望能够找到重叠的文档(例如,与全文相反的博客片段,可能还有引用) 你知道C++、Perl或Perl中的任何其他实现吗?我可以自己写之前尝试一下吗?< /P> < P> SpotSigs似乎适合我的法案,这里有一些参考文献: 此模块的soruce代码托管在GitHub上: Jeremy Z.github链接不是源代码的链接。如果你看看回购协议,它是空的。SpotSigs的来源可以在这里找到:

几年前,我写博客的时候是为了在我看到它们之前删除重复的博客文章

在阅读了实现所基于的论文之后,我希望能够找到重叠的文档(例如,与全文相反的博客片段,可能还有引用)


你知道C++、Perl或Perl中的任何其他实现吗?我可以自己写之前尝试一下吗?< /P> < P> SpotSigs似乎适合我的法案,这里有一些参考文献:

此模块的soruce代码托管在GitHub上:


Jeremy Z.github链接不是源代码的链接。如果你看看回购协议,它是空的。SpotSigs的来源可以在这里找到:Nate提到的页面已移动,这是新的URL:我认为您必须使用经典的基于行的差分算法:这可能是对手头任务过于简单的方法,因为我想删除几乎重复的内容,例如有人引用了大部分帖子,并添加了类似“我也是”的内容这只是垃圾邮件。