Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
ElasticSearch中的文档相似性_Search_Solr_Lucene_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Mlt - Fatal编程技术网 elasticsearch,mlt,Search,Solr,Lucene,elasticsearch,Mlt" /> elasticsearch,mlt,Search,Solr,Lucene,elasticsearch,Mlt" />

ElasticSearch中的文档相似性

ElasticSearch中的文档相似性,search,solr,lucene,elasticsearch,mlt,Search,Solr,Lucene,elasticsearch,Mlt,我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么 我发现有一个相似性模块正是这样做的: 如何将其集成到我的系统中?我使用pyelasticsearch来调用elasticsearch命令,但如果需要,我愿意使用REST api来实现相似性。我认为elasticsearch文档很容易被误解 这里的“相似性”不是文档或字段的比较,而是根据查询中的匹配项对匹配文档进行评分的机制 文件规定: Elasticsearch支持的

我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么

我发现有一个相似性模块正是这样做的:


如何将其集成到我的系统中?我使用pyelasticsearch来调用elasticsearch命令,但如果需要,我愿意使用REST api来实现相似性。

我认为elasticsearch文档很容易被误解

这里的“相似性”不是文档或字段的比较,而是根据查询中的匹配项对匹配文档进行评分的机制

文件规定:

Elasticsearch支持的相似性算法是基于语料库(索引)中词分布的概率模型

关于术语向量,这也可能被错误解释

这里的“术语向量”是指易于查询的文档术语的统计信息。似乎任何跨术语向量的相似性度量都必须在应用程序post查询中完成。关于术语向量的文件说明:

如果在一个非常大的语料库上需要一个性能(快速)相似性度量,则可以考虑存储在索引中的文档的低级别嵌入,以进行近似最近邻搜索。在KNN查找之后(这大大减少了候选集),您可以为排名进行更昂贵的度量计算

以下是一个用于评估近似KNN解决方案的优秀资源:

Javanna发表了一篇关于MLT查询和MLTAPI之间区别的文章。这将有助于澄清差异,并为您提供有关其工作方式的更多信息。我希望我的回答有帮助,给我你的任何问题。@Michaelatqbox.io答案没有解决我面临的问题。MLT查询和MLT api都可以帮助您搜索“关闭”文档。我想测量两个文档之间的接近程度。应该看到第一个问题比较难,但我没有办法解决第二个问题。期待您的回复。问题也写在这里: