在MarkLogic中创建新的范围索引后,如何估计数据大小的增加?

在MarkLogic中创建新的范围索引后,如何估计数据大小的增加?,marklogic,marklogic-8,marklogic-9,marklogic-7,Marklogic,Marklogic 8,Marklogic 9,Marklogic 7,我想在我的ML db中创建一个新元素范围索引。我如何估计这个新指数的大小?我使用的是ML8.0-3.2。最好的方法是对数据的代表性样本进行测试,然后进行推断 字符串索引在一个支架内共享唯一值和唯一标记,因此大小将高度依赖于不同值的数量,并且很难预先计算 对于其他数据类型,大小取决于内容中实际值的数量。如果您知道每个文档和N个文档平均有k个值,那么如果您打开了位置,您将期望大约8*N*k字节或16*N*k字节。浮动索引只有这个大小的一半;如果使用双精度,点索引是双精度的。关键数据与非关键数据一起存

我想在我的ML db中创建一个新元素范围索引。我如何估计这个新指数的大小?我使用的是ML8.0-3.2。

最好的方法是对数据的代表性样本进行测试,然后进行推断

字符串索引在一个支架内共享唯一值和唯一标记,因此大小将高度依赖于不同值的数量,并且很难预先计算


对于其他数据类型,大小取决于内容中实际值的数量。如果您知道每个文档和N个文档平均有k个值,那么如果您打开了位置,您将期望大约
8*N*k
字节或
16*N*k
字节。浮动索引只有这个大小的一半;如果使用双精度,点索引是双精度的。

关键数据与非关键数据一起存储在子目录
Forests//
中的MARKLOGIC_data_DIR(取决于您的安装)中。 密钥和非密钥数据是相互依赖的。如果您的目的是估计添加一个新索引会占用多少磁盘空间,那么请计算没有该索引的数据库的所有林目录的大小,然后添加索引,然后减去

是的,我知道这听起来不像“估计”。其他的都是粗略的猜测

对于“粗略猜测”--“这取决于”--任何猜测都应该通过尝试来规范化。 基本上,典型的文本索引大小对应于具有该术语的不同术语*8*num文档的数量

对于包含该术语的每个文档,每个索引项将至少包含一个64位值。此外,它将(可能与其他索引共享)存储该术语的编码版本


这种“粗略猜测”可能相差10倍或更多——这取决于索引的类型、数据的分布、压缩和加密等。因此,您应该真正比较索引相似索引前后的差异

你有其他可以比较的索引吗?@grtjn-是的,我在同一个数据库中有其他索引。我不知道如何检查索引占用的空间。如果我和@mholstege的答案不一致,请选择她的。