Lucene 在索引过程中,如何为每个文档中的每个术语定义提升因子?

Lucene 在索引过程中,如何为每个文档中的每个术语定义提升因子?,lucene,scoring,Lucene,Scoring,我想在Lucene的相似性方程中插入另一个分数因子。问题是,我不能只覆盖相似度类,因为它不知道计算分数的文档和术语 例如,在包含以下文本的文档中: The cat is in the top of the tree, and he is going to stay there. 我有一个自己的算法,它为本文档中的每一个术语分配一个分数,说明每一个术语对整个文档的重要性。每个单词的可能分数为: cat: 0.789212 tree: 0.633423 top: 0.412315 stay: 0.

我想在Lucene的相似性方程中插入另一个分数因子。问题是,我不能只覆盖相似度类,因为它不知道计算分数的文档和术语

例如,在包含以下文本的文档中:

The cat is in the top of the tree, and he is going to stay there.
我有一个自己的算法,它为本文档中的每一个术语分配一个分数,说明每一个术语对整个文档的重要性。每个单词的可能分数为:

cat: 0.789212
tree: 0.633423
top: 0.412315
stay: 0.123912
there: 0.0999842
going: 0.00988412
...
每个单词的分数因文档而异。例如,在另一个文档中,
cat
的得分可能为:0.0023912

我想把这个分数加到Lucene的分数上,但是我有点迷茫了怎么做


任何提示?

使用Lucene的有效负载功能:

发件人:

  • 在索引期间向一个或多个令牌添加有效负载
  • 重写相似性类以处理评分有效负载
  • 在搜索过程中使用负载感知查询