Java 获取两个文本的相似度百分比
我需要得到文本之间的相似性分数,当一个在第二个之内时 例如:Java 获取两个文本的相似度百分比,java,lucene,Java,Lucene,我需要得到文本之间的相似性分数,当一个在第二个之内时 例如: Text1: aaa bbb ccc ddd eee Text2: bbb ccc 我需要一些东西告诉我,文本2在文本1中是100%的。有什么方法可以做到这一点吗?根据您的需要,您可以尝试一下 两个文本的最长公共子序列长度除以文本长度2 或将两个文本的最长连续子序列的长度也除以text2的长度 如果文本完全位于text1内部,则两者都将为您提供1;如果它们不共享一个公共字符,则两者都将为您提供0。您不需要Lucene来获取文本之
Text1: aaa bbb ccc ddd eee
Text2: bbb ccc
我需要一些东西告诉我,文本2在文本1中是100%的。有什么方法可以做到这一点吗?根据您的需要,您可以尝试一下
- 两个文本的最长公共子序列长度除以文本长度2
- 或将两个文本的最长连续子序列的长度也除以text2的长度
如果文本完全位于text1内部,则两者都将为您提供1;如果它们不共享一个公共字符,则两者都将为您提供0。您不需要Lucene来获取文本之间的相似性。根据文本长度、字符串类型等,有几种可用的度量方法,您需要进行实验,以获得最佳结果
在F/OSS库中可以找到一个非常好的、全面的算法集合,该库提供了大量的相似性算法及其相应的代价函数。请参阅本书和。两者都不需要Lucene 谢谢你的回答。Lucene有什么我可以用的吗?想象一下,你有2组2GB的短文本,你需要得到我上面描述的内容。