Tomcat 了解非数学背景的apache solr评分

Tomcat 了解非数学背景的apache solr评分,tomcat,solr,lucene,Tomcat,Solr,Lucene,我在学习ApacheSolr评分方法。这里是说,你应该去页面了解评分公式。因为我没有数学背景,所以我很难理解高水平的数学是否有其他方法可以轻松理解基本评分公式?Lucene使用大量功能对文档进行评分,但评分基本上取决于文档和查询之间的相似性。我在前面用或多或少简单的文字解释了文档之间的概念,所以让我在这里简单地解释一下 若你们有所有单词的字典,你们可以把它们组织成一个长长的列表。数学家习惯于对任何序列使用术语“向量”,包括单词列表,所以我们称之为单词向量: [阿巴特,关于,香蕉,…] 我们也可以

我在学习ApacheSolr评分方法。这里是说,你应该去页面了解评分公式。因为我没有数学背景,所以我很难理解高水平的数学是否有其他方法可以轻松理解基本评分公式?

Lucene使用大量功能对文档进行评分,但评分基本上取决于文档和查询之间的相似性。我在前面用或多或少简单的文字解释了文档之间的概念,所以让我在这里简单地解释一下

若你们有所有单词的字典,你们可以把它们组织成一个长长的列表。数学家习惯于对任何序列使用术语“向量”,包括单词列表,所以我们称之为单词向量:

[阿巴特,关于,香蕉,…]

我们也可以将集合中的每个文档表示为向量,其中每个元素表示文档中相应单词的出现次数。例如,如果文档中出现了1个单词“banana”,2个单词“about”,而没有出现“abbat”,则文档向量将按如下方式开始:

[0,2,1,…]

现在最有趣的部分来了。我们可以假设,如果两个文档有很多共同的词,它们是关于相似的主题的,如果它们有很少的共同点,那么这些文档是非常不同的。因为我们已经知道文档可以表示为单词的向量,所以我们可以将文档的相似性计算为其向量的相似性

有许多方法可以计算两个向量的相似程度。Lucene使用非常简单的余弦距离。这个想法来自于向量的几何表示和它们之间的角度——如果你在二维空间中画两个向量,你会发现这些向量的坐标越相似,它们之间的角度就越小。这就是余弦距离的来源,但实际上您应该只关心两个文档中相同单词的数量


当处理搜索引擎时,查询就像文档一样处理:为它们构建文档向量,然后用于从集合中查找最相似(即相关)的文档

Lucene使用大量的功能对文档进行评分,但评分基本上取决于文档和查询之间的相似性。我在前面用或多或少简单的文字解释了文档之间的概念,所以让我在这里简单地解释一下

若你们有所有单词的字典,你们可以把它们组织成一个长长的列表。数学家习惯于对任何序列使用术语“向量”,包括单词列表,所以我们称之为单词向量:

[阿巴特,关于,香蕉,…]

我们也可以将集合中的每个文档表示为向量,其中每个元素表示文档中相应单词的出现次数。例如,如果文档中出现了1个单词“banana”,2个单词“about”,而没有出现“abbat”,则文档向量将按如下方式开始:

[0,2,1,…]

现在最有趣的部分来了。我们可以假设,如果两个文档有很多共同的词,它们是关于相似的主题的,如果它们有很少的共同点,那么这些文档是非常不同的。因为我们已经知道文档可以表示为单词的向量,所以我们可以将文档的相似性计算为其向量的相似性

有许多方法可以计算两个向量的相似程度。Lucene使用非常简单的余弦距离。这个想法来自于向量的几何表示和它们之间的角度——如果你在二维空间中画两个向量,你会发现这些向量的坐标越相似,它们之间的角度就越小。这就是余弦距离的来源,但实际上您应该只关心两个文档中相同单词的数量

当处理搜索引擎时,查询就像文档一样处理:为它们构建文档向量,然后用于从集合中查找最相似(即相关)的文档