Java HTML文件中的相似性百分比

Java HTML文件中的相似性百分比,java,html,text,metrics,similarity,Java,Html,Text,Metrics,Similarity,我试图实现一个网站污损检测器。为了实现这一点,我应该用Java开发一个工具来比较两个HTML文件之间的相似性。我打算剥离URL和JS以分别对待它们 我正在寻找一个工具/库/算法,我可以使用它来计算相似性度量(理想情况下是百分比),以便检测网站中的重大变化 感谢您的帮助。由于HTML本质上只是一种基于文本的标记,因此最简单的方法是使用。此算法通过为单个字符的每次加减或删除指定一个点来确定两个输入字符串之间的差异,并确定此结果的“最短”距离 非正式地说,两个单词之间的Levenshtein距离是最小

我试图实现一个网站污损检测器。为了实现这一点,我应该用Java开发一个工具来比较两个HTML文件之间的相似性。我打算剥离URL和JS以分别对待它们

我正在寻找一个工具/库/算法,我可以使用它来计算相似性度量(理想情况下是百分比),以便检测网站中的重大变化


感谢您的帮助。

由于HTML本质上只是一种基于文本的标记,因此最简单的方法是使用。此算法通过为单个字符的每次加减或删除指定一个点来确定两个输入字符串之间的差异,并确定此结果的“最短”距离

非正式地说,两个单词之间的Levenshtein距离是最小的 单字符编辑数(插入、删除、替换) 需要将一个单词更改为另一个单词

Java的一个示例实现


通过将Levenshtein距离除以最大输入字符串的长度,可以计算出两个字符串之间的差异百分比。

由于HTML本质上只是一个基于文本的标记,最简单的方法是。此算法通过为单个字符的每次加减或删除指定一个点来确定两个输入字符串之间的差异,并确定此结果的“最短”距离

非正式地说,两个单词之间的Levenshtein距离是最小的 单字符编辑数(插入、删除、替换) 需要将一个单词更改为另一个单词

Java的一个示例实现


通过将Levenshtein距离除以最大输入字符串的长度,可以计算出两个字符串之间的差异百分比。

。。。你想要的工具已经完成了你想要做的事情?我不确定这是一个有效的问题。我认为这是一个有效的问题。即使我自己实现这个工具,我仍然需要关于使用算法的建议。如果这个工具存在,我为什么要实现它(我没有任何必要的技能,我只是一个实习生)如果你想要一个第三方工具,使用PhantomJS。它是为自动化的站点测试而设计的,并且包括拍摄站点截图并与参考图像进行比较的能力。看到了吧。。。你想要的工具已经完成了你想要做的事情?我不确定这是一个有效的问题。我认为这是一个有效的问题。即使我自己实现这个工具,我仍然需要关于使用算法的建议。如果这个工具存在,我为什么要实现它(我没有任何必要的技能,我只是一个实习生)如果你想要一个第三方工具,使用PhantomJS。它是为自动化的站点测试而设计的,并且包括拍摄站点截图并与参考图像进行比较的能力。看见