如何估计Lucene索引的大小？_Lucene

如何估计Lucene索引的大小？

lucene

如何估计Lucene索引的大小？,lucene,Lucene,是否有一个已知的数学公式，我可以用来估计一个新的Lucene指数的大小？我知道要索引多少字段，以及每个字段的大小。而且，我知道有多少项将被索引。那么，一旦这些被Lucene处理，它如何转换成字节呢我认为这也与每个术语的频率有关（即，10000份相同术语的索引应该比10000份完全唯一术语的索引小得多）此外，是否使用术语向量，以及是否存储字段，可能有一点依赖性。你能提供更多细节吗？你能分析你的源数据的术语频率吗？以下是答案。主文件是复合索引（.cfs文件）。如果您有术语统计信息，您可能会得

是否有一个已知的数学公式，我可以用来估计一个新的Lucene指数的大小？我知道要索引多少字段，以及每个字段的大小。而且，我知道有多少项将被索引。那么，一旦这些被Lucene处理，它如何转换成字节呢

我认为这也与每个术语的频率有关（即，10000份相同术语的索引应该比10000份完全唯一术语的索引小得多）

此外，是否使用术语向量，以及是否存储字段，可能有一点依赖性。你能提供更多细节吗？你能分析你的源数据的术语频率吗？

以下是答案。主文件是复合索引（.cfs文件）。如果您有术语统计信息，您可能会得到.cfs文件大小的估计值，请注意，这取决于您使用的分析器和您定义的字段类型。索引仅存储一次每个“标记”或文本字段等，因此大小取决于被索引的材料的性质。再加上存储的内容。一个好的方法可能是获取一个样本并对其编制索引，然后使用它来推断出完整的源集合。但是，索引大小与源大小的比率也会随着时间的推移而降低，因为单词已经存在于索引中，所以您可能希望使样本占原始样本的适当百分比