Solr 文档集之间的相似性度量

Solr 文档集之间的相似性度量,solr,lucene,morelikethis,Solr,Lucene,Morelikethis,为了便于说明,我们假设这是一个论坛服务。我需要计算每个用户的帖子之间的“相似性”,结果如下: among posts by user A, similarity 60% among posts by user B, similarity 20% ... 我处理的是多字节字符串,所以我想我被搜索引擎困住了。我们已经使用Solr,已经实现了更多类似的功能,但我不太确定如何构造查询。感谢您的帮助 奇怪的问题有两个方面:1。你为什么要和索尔打交道?2.相似性的类型取决于目标问题。我觉得你的问题太笼统了

为了便于说明,我们假设这是一个论坛服务。我需要计算每个用户的帖子之间的“相似性”,结果如下:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

我处理的是多字节字符串,所以我想我被搜索引擎困住了。我们已经使用Solr,已经实现了更多类似的功能,但我不太确定如何构造查询。感谢您的帮助

奇怪的问题有两个方面:1。你为什么要和索尔打交道?2.相似性的类型取决于目标问题。我觉得你的问题太笼统了。语义相似性领域正在进行研究。还有编辑距离算法,这可能不是您想要的


所以,更准确地定义你的问题,你会得到更好的答案。

可能会让你感兴趣(并与之相关)

有几种相似性度量,一种简单有效的度量是余弦相似性。 还有更复杂的,如史密斯·沃特曼等


你需要定义你所认为的“相似”,以及你想如何建模。Levenshtein距离?马尔可夫链?实际上我并不在乎,因为我愿意让Solr的更像这个特性为我决定。但是,与标准的“根据你所做的相似性评分,给我更多像这样的文章”不同,我在这里试图做的是“给我这些文章之间的相似性评分”。