ElasticSearch中的文档相似性_Search_Solr_Lucene_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Mlt

ElasticSearch中的文档相似性

search solr lucene

ElasticSearch中的文档相似性,search,solr,lucene,elasticsearch,mlt,Search,Solr,Lucene,elasticsearch,Mlt,我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么我发现有一个相似性模块正是这样做的：如何将其集成到我的系统中？我使用pyelasticsearch来调用elasticsearch命令，但如果需要，我愿意使用REST api来实现相似性。我认为elasticsearch文档很容易被误解这里的“相似性”不是文档或字段的比较，而是根据查询中的匹配项对匹配文档进行评分的机制文件规定： Elasticsearch支持的

我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么

我发现有一个相似性模块正是这样做的：

如何将其集成到我的系统中？我使用pyelasticsearch来调用elasticsearch命令，但如果需要，我愿意使用REST api来实现相似性。

我认为elasticsearch文档很容易被误解

这里的“相似性”不是文档或字段的比较，而是根据查询中的匹配项对匹配文档进行评分的机制

文件规定：

Elasticsearch支持的相似性算法是基于语料库（索引）中词分布的概率模型

关于术语向量，这也可能被错误解释

这里的“术语向量”是指易于查询的文档术语的统计信息。似乎任何跨术语向量的相似性度量都必须在应用程序post查询中完成。关于术语向量的文件说明：

如果在一个非常大的语料库上需要一个性能（快速）相似性度量，则可以考虑存储在索引中的文档的低级别嵌入，以进行近似最近邻搜索。在KNN查找之后（这大大减少了候选集），您可以为排名进行更昂贵的度量计算

以下是一个用于评估近似KNN解决方案的优秀资源：

Javanna发表了一篇关于MLT查询和MLTAPI之间区别的文章。这将有助于澄清差异，并为您提供有关其工作方式的更多信息。我希望我的回答有帮助，给我你的任何问题。@Michaelatqbox.io答案没有解决我面临的问题。MLT查询和MLT api都可以帮助您搜索“关闭”文档。我想测量两个文档之间的接近程度。应该看到第一个问题比较难，但我没有办法解决第二个问题。期待您的回复。问题也写在这里：