Lucene 监控索引大小并确定增长趋势

Lucene 监控索引大小并确定增长趋势,lucene,Lucene,我使用的是一个商业产品(发现工具),其核心是ApacheLucene(v3.6.1)。我将摄取约60K的全文和元数据,我想了解一下索引大小的变化。理想情况下,我希望每次都为5/10K纯文本编制索引,并评估索引增长(我希望这是线性的)。我的理解是主文件是.CFS(复合文件),但我似乎只有以下格式: .FDT (field index) .FDX (field data) .FNM (fields) .FRQ (frequencies) .NRM (norms) .PRX (positions) .

我使用的是一个商业产品(发现工具),其核心是ApacheLucene(v3.6.1)。我将摄取约60K的全文和元数据,我想了解一下索引大小的变化。理想情况下,我希望每次都为5/10K纯文本编制索引,并评估索引增长(我希望这是线性的)。我的理解是主文件是.CFS(复合文件),但我似乎只有以下格式:

.FDT (field index)
.FDX (field data)
.FNM (fields)
.FRQ (frequencies)
.NRM (norms)
.PRX (positions)
.TII (term info index)
.TIS (term infos)
.segment.GEN and segment_N (segments)
(我已经阅读了3.0.3版中的文件.CFS成为可选文件,如果我错了,请更正)。建议的方法是什么?欢迎任何建议

谢谢你


I.

其中每一项都有助于衡量指数规模。除段文件外,所有这些文件都组合在可选的
.cfs
文件中。虽然某些索引对大小的影响肯定比其他索引更大,但为了全面了解索引增长情况,您可能希望监视所有索引,或者更确切地说,监视整个索引目录。除此之外,我真的不知道你在问什么。@femtoRgon,谢谢你,非常感谢。这正是我一直在寻找的,我想我会单独处理每个文件,并监视它们的大小是如何增加的。尽管如此,我仍然有兴趣听到一些关于这个主题的最佳实践(例如,可以使用的统计方法)。