ElasticSearch中的文档相似性
我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么 我发现有一个相似性模块正是这样做的:ElasticSearch中的文档相似性,search,solr,lucene,
elasticsearch,mlt,Search,Solr,Lucene,
elasticsearch,Mlt,我想计算在elasticsearch中索引的两个文档之间的相似性。我知道可以用术语向量在lucene中实现。直接的方法是什么 我发现有一个相似性模块正是这样做的: 如何将其集成到我的系统中?我使用pyelasticsearch来调用elasticsearch命令,但如果需要,我愿意使用REST api来实现相似性。我认为elasticsearch文档很容易被误解 这里的“相似性”不是文档或字段的比较,而是根据查询中的匹配项对匹配文档进行评分的机制 文件规定: Elasticsearch支持的
如何将其集成到我的系统中?我使用pyelasticsearch来调用elasticsearch命令,但如果需要,我愿意使用REST api来实现相似性。我认为elasticsearch文档很容易被误解 这里的“相似性”不是文档或字段的比较,而是根据查询中的匹配项对匹配文档进行评分的机制 文件规定: Elasticsearch支持的相似性算法是基于语料库(索引)中词分布的概率模型 关于术语向量,这也可能被错误解释 这里的“术语向量”是指易于查询的文档术语的统计信息。似乎任何跨术语向量的相似性度量都必须在应用程序post查询中完成。关于术语向量的文件说明:
如果在一个非常大的语料库上需要一个性能(快速)相似性度量,则可以考虑存储在索引中的文档的低级别嵌入,以进行近似最近邻搜索。在KNN查找之后(这大大减少了候选集),您可以为排名进行更昂贵的度量计算
以下是一个用于评估近似KNN解决方案的优秀资源:Javanna发表了一篇关于MLT查询和MLTAPI之间区别的文章。这将有助于澄清差异,并为您提供有关其工作方式的更多信息。我希望我的回答有帮助,给我你的任何问题。@Michaelatqbox.io答案没有解决我面临的问题。MLT查询和MLT api都可以帮助您搜索“关闭”文档。我想测量两个文档之间的接近程度。应该看到第一个问题比较难,但我没有办法解决第二个问题。期待您的回复。问题也写在这里: