lucene 4.0中的文档长度

lucene 4.0中的文档长度,lucene,Lucene,我已经阅读了lucene 4.0的文档,现在这个库存储了一些统计数据,以便计算不同的评分模型,其中一个是bm25。除了获取文档外,还有什么方法可以获取文档的长度 您可以将想要的任何内容从FieldInvertState存储到“norm”中,并且它也不必是8位浮点 默认值是长度的有损存储,如果您想要实际的精确长度,可以选择使用短(16位)的每个文档或其他内容 参见Similarity.computeNorm文档的长度是多少?字节数/代码点数/字段数?这是一个术语数,长度与计算BM25时使用的长度相

我已经阅读了lucene 4.0的文档,现在这个库存储了一些统计数据,以便计算不同的评分模型,其中一个是bm25。除了获取文档外,还有什么方法可以获取文档的长度

您可以将想要的任何内容从FieldInvertState存储到“norm”中,并且它也不必是8位浮点

默认值是长度的有损存储,如果您想要实际的精确长度,可以选择使用短(16位)的每个文档或其他内容


参见Similarity.computeNorm

文档的长度是多少?字节数/代码点数/字段数?这是一个术语数,长度与计算BM25时使用的长度相同,我知道Lucene 4中存在此统计数据,否则BM25计算将不可能,但我不知道如何获取它。你能给我一个如何检索文档长度的示例吗?我不太明白你的回答。。具体一点肯定会对我有帮助。“见相似性。计算机”,见何处?我使用的是Lucene 4.0版,我应该在索引时计算这个范数并将其存储为索引中的一个字段,还是可以在不存储任何内容的情况下检索长度?