Text 用于立法的Diff算法_Text_Diff_Text Processing

Text 用于立法的Diff算法

text

Text 用于立法的Diff算法,text,diff,text-processing,Text,Diff,Text Processing,作为一个雄心勃勃的项目的一部分，我正试图更好地理解写入美国国会提出的法案中的立法文本。我有最近法案的电子版本，我正在尝试实现一种算法，将一个法案与以前的法案进行比较，寻找相似之处。我们的假设是，许多失败的法案最终会被纳入其他法案显然，这是一项艰巨的任务。关于不同的引擎存在许多问题，但我的问题略有不同。很多时候，法案被引入，将几个想法打包在一起。所以差异引擎需要比较账单的部分，而不是整个账单关于差分算法或方法有什么建议吗？我拥有强大的计算能力，但请记住，我将使用大约100000张账单的数据集。

作为一个雄心勃勃的项目的一部分，我正试图更好地理解写入美国国会提出的法案中的立法文本。我有最近法案的电子版本，我正在尝试实现一种算法，将一个法案与以前的法案进行比较，寻找相似之处。我们的假设是，许多失败的法案最终会被纳入其他法案

显然，这是一项艰巨的任务。关于不同的引擎存在许多问题，但我的问题略有不同。很多时候，法案被引入，将几个想法打包在一起。所以差异引擎需要比较账单的部分，而不是整个账单

关于差分算法或方法有什么建议吗？我拥有强大的计算能力，但请记住，我将使用大约100000张账单的数据集。

看看。它适用于纯文本和代码。

非常有趣的想法。我会从研究算法开始，看看如何调整它们（1）报告超过某个阈值的任何序列，比如20个单词，（2）看看你是否能让它们处理一些模糊性，以防一两个单词发生变化。我建议先看一下diff代码

你可能想看看Lucene/SOLR全文搜索引擎，可能有一些插件可以满足你的需求。这有什么结果吗？听起来很有趣。希望这篇文章迟早会成为一篇期刊文章！我的大学正在积极地研究这个问题。如果它出版的话，我会给你发一个链接。最长公共子序列是我们希望采用的方法，但它在计算上不可行。