Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/351.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 获取两个文本的相似度百分比_Java_Lucene - Fatal编程技术网

Java 获取两个文本的相似度百分比

Java 获取两个文本的相似度百分比,java,lucene,Java,Lucene,我需要得到文本之间的相似性分数,当一个在第二个之内时 例如: Text1: aaa bbb ccc ddd eee Text2: bbb ccc 我需要一些东西告诉我,文本2在文本1中是100%的。有什么方法可以做到这一点吗?根据您的需要,您可以尝试一下 两个文本的最长公共子序列长度除以文本长度2 或将两个文本的最长连续子序列的长度也除以text2的长度 如果文本完全位于text1内部,则两者都将为您提供1;如果它们不共享一个公共字符,则两者都将为您提供0。您不需要Lucene来获取文本之

我需要得到文本之间的相似性分数,当一个在第二个之内时

例如:

Text1: aaa bbb ccc ddd eee
Text2: bbb ccc

我需要一些东西告诉我,文本2在文本1中是100%的。有什么方法可以做到这一点吗?

根据您的需要,您可以尝试一下

  • 两个文本的最长公共子序列长度除以文本长度2
  • 或将两个文本的最长连续子序列的长度也除以text2的长度

如果文本完全位于text1内部,则两者都将为您提供1;如果它们不共享一个公共字符,则两者都将为您提供0。

您不需要Lucene来获取文本之间的相似性。根据文本长度、字符串类型等,有几种可用的度量方法,您需要进行实验,以获得最佳结果


在F/OSS库中可以找到一个非常好的、全面的算法集合,该库提供了大量的相似性算法及其相应的代价函数。

请参阅本书和。两者都不需要Lucene

谢谢你的回答。Lucene有什么我可以用的吗?想象一下,你有2组2GB的短文本,你需要得到我上面描述的内容。