Ruby 查找许多HTML文档之间的文本块之间的相似性?

Ruby 查找许多HTML文档之间的文本块之间的相似性?,ruby,diff,Ruby,Diff,如果我有20个HTML页面,我想提取出文档的共享/相似部分,有什么有效的方法可以做到这一点 比如说StackOverflow,比较10个页面,我会发现每个页面的顶部栏和主菜单栏是相同的,所以我可以将它们提取出来 似乎我需要一个diff程序或一些复杂的regexp,但假设我事先不知道page/text/html结构 这可能吗?您不需要任何复杂的regexp;只要一个简单的差异分析仪就可以了。只需做一次(可列举的)注射,只保留与备忘录相似的部分 以下是Ruby中的一些: --从Perl实现文本差异

如果我有20个HTML页面,我想提取出文档的共享/相似部分,有什么有效的方法可以做到这一点

比如说StackOverflow,比较10个页面,我会发现每个页面的顶部栏和主菜单栏是相同的,所以我可以将它们提取出来

似乎我需要一个diff程序或一些复杂的regexp,但假设我事先不知道page/text/html结构


这可能吗?

您不需要任何复杂的regexp;只要一个简单的差异分析仪就可以了。只需做一次(可列举的)注射,只保留与备忘录相似的部分

以下是Ruby中的一些:

  • --从Perl实现文本差异算法
  • --查找两个字符串的差异,并以漂亮的格式(HTML)呈现(可能不完全是您想要的,除非您可以从输出中删除所有非差异材质)
希望这有帮助 CloneDR已应用于许多编程语言。它的基础,DMS软件再生工具包,已经处理(脏)HTML,因此很容易建立一个HMTL CURNORD.< /P>可能的副本。