Ruby 查找许多HTML文档之间的文本块之间的相似性？_Ruby_Diff

Ruby 查找许多HTML文档之间的文本块之间的相似性？

ruby

Ruby 查找许多HTML文档之间的文本块之间的相似性？,ruby,diff,Ruby,Diff,如果我有20个HTML页面，我想提取出文档的共享/相似部分，有什么有效的方法可以做到这一点比如说StackOverflow，比较10个页面，我会发现每个页面的顶部栏和主菜单栏是相同的，所以我可以将它们提取出来似乎我需要一个diff程序或一些复杂的regexp，但假设我事先不知道page/text/html结构这可能吗？您不需要任何复杂的regexp；只要一个简单的差异分析仪就可以了。只需做一次（可列举的）注射，只保留与备忘录相似的部分以下是Ruby中的一些： --从Perl实现文本差异

如果我有20个HTML页面，我想提取出文档的共享/相似部分，有什么有效的方法可以做到这一点

比如说StackOverflow，比较10个页面，我会发现每个页面的顶部栏和主菜单栏是相同的，所以我可以将它们提取出来

似乎我需要一个diff程序或一些复杂的regexp，但假设我事先不知道page/text/html结构

这可能吗？

您不需要任何复杂的regexp；只要一个简单的差异分析仪就可以了。只需做一次（可列举的）注射，只保留与备忘录相似的部分

以下是Ruby中的一些：

--从Perl实现文本差异算法
--查找两个字符串的差异，并以漂亮的格式（HTML）呈现（可能不完全是您想要的，除非您可以从输出中删除所有非差异材质）

希望这有帮助 CloneDR已应用于许多编程语言。它的基础，DMS软件再生工具包，已经处理（脏）HTML，因此很容易建立一个HMTL CURNORD.< /P>可能的副本。