Text 用于立法的Diff算法

Text 用于立法的Diff算法,text,diff,text-processing,Text,Diff,Text Processing,作为一个雄心勃勃的项目的一部分,我正试图更好地理解写入美国国会提出的法案中的立法文本。我有最近法案的电子版本,我正在尝试实现一种算法,将一个法案与以前的法案进行比较,寻找相似之处。我们的假设是,许多失败的法案最终会被纳入其他法案 显然,这是一项艰巨的任务。关于不同的引擎存在许多问题,但我的问题略有不同。很多时候,法案被引入,将几个想法打包在一起。所以差异引擎需要比较账单的部分,而不是整个账单 关于差分算法或方法有什么建议吗?我拥有强大的计算能力,但请记住,我将使用大约100000张账单的数据集。

作为一个雄心勃勃的项目的一部分,我正试图更好地理解写入美国国会提出的法案中的立法文本。我有最近法案的电子版本,我正在尝试实现一种算法,将一个法案与以前的法案进行比较,寻找相似之处。我们的假设是,许多失败的法案最终会被纳入其他法案

显然,这是一项艰巨的任务。关于不同的引擎存在许多问题,但我的问题略有不同。很多时候,法案被引入,将几个想法打包在一起。所以差异引擎需要比较账单的部分,而不是整个账单


关于差分算法或方法有什么建议吗?我拥有强大的计算能力,但请记住,我将使用大约100000张账单的数据集。

看看。它适用于纯文本和代码。

非常有趣的想法。我会从研究算法开始,看看如何调整它们(1)报告超过某个阈值的任何序列,比如20个单词,(2)看看你是否能让它们处理一些模糊性,以防一两个单词发生变化。我建议先看一下diff代码

你可能想看看Lucene/SOLR全文搜索引擎,可能有一些插件可以满足你的需求。这有什么结果吗?听起来很有趣。希望这篇文章迟早会成为一篇期刊文章!我的大学正在积极地研究这个问题。如果它出版的话,我会给你发一个链接。最长公共子序列是我们希望采用的方法,但它在计算上不可行。