如何估计Lucene索引的大小?

如何估计Lucene索引的大小?,lucene,Lucene,是否有一个已知的数学公式,我可以用来估计一个新的Lucene指数的大小?我知道要索引多少字段,以及每个字段的大小。而且,我知道有多少项将被索引。那么,一旦这些被Lucene处理,它如何转换成字节呢 我认为这也与每个术语的频率有关(即,10000份相同术语的索引应该比10000份完全唯一术语的索引小得多) 此外,是否使用术语向量,以及是否存储字段,可能有一点依赖性。你能提供更多细节吗?你能分析你的源数据的术语频率吗?以下是答案。 主文件是复合索引(.cfs文件)。 如果您有术语统计信息,您可能会得

是否有一个已知的数学公式,我可以用来估计一个新的Lucene指数的大小?我知道要索引多少字段,以及每个字段的大小。而且,我知道有多少项将被索引。那么,一旦这些被Lucene处理,它如何转换成字节呢

我认为这也与每个术语的频率有关(即,10000份相同术语的索引应该比10000份完全唯一术语的索引小得多)

此外,是否使用术语向量,以及是否存储字段,可能有一点依赖性。你能提供更多细节吗?你能分析你的源数据的术语频率吗?

以下是答案。 主文件是复合索引(.cfs文件)。 如果您有术语统计信息,您可能会得到.cfs文件大小的估计值, 请注意,这取决于您使用的分析器和您定义的字段类型。索引仅存储一次每个“标记”或文本字段等,因此大小取决于被索引的材料的性质。再加上存储的内容。一个好的方法可能是获取一个样本并对其编制索引,然后使用它来推断出完整的源集合。但是,索引大小与源大小的比率也会随着时间的推移而降低,因为单词已经存在于索引中,所以您可能希望使样本占原始样本的适当百分比