solr 4.0中mergeFactor的使用_Solr_Lucene

solr 4.0中mergeFactor的使用

solr lucene

solr 4.0中mergeFactor的使用,solr,lucene,Solr,Lucene,我认为mergeFactor可以被认为是段内的最大数量，但当它设置为10时，索引后我得到了16个段，当段内的数量超过15和20时发生合并。我真的搞不懂合并因子的平均值这是我的配置 <ramBufferSizeMB>32</ramBufferSizeMB> <maxBufferedDocs>100000</maxBufferedDocs> <mergeFactor>10</mergeFactor> 32 100000 10

我认为mergeFactor可以被认为是段内的最大数量，但当它设置为10时，索引后我得到了16个段，当段内的数量超过15和20时发生合并。我真的搞不懂合并因子的平均值

这是我的配置

<ramBufferSizeMB>32</ramBufferSizeMB>
<maxBufferedDocs>100000</maxBufferedDocs>
<mergeFactor>10</mergeFactor>

32
100000
10

来自

合并因子大致决定了分段的数量。 mergeFactor值告诉Lucene在将相同大小的段合并到单个段之前要构建多少段。它可以被认为是数字系统的基础

这不是一个确切的数字，而是如何在磁盘上管理索引的指南。以下是一些关于此值的不同设置对索引性能的影响的附加良好指导：

合并因素权衡

高值合并系数（例如，25）：

优点：通常可以提高索引速度
缺点：合并频率较低，导致集合包含更多索引文件，这可能会减慢搜索速度

低值合并系数（例如，2）：

优点：索引文件的数量较少，这加快了搜索速度
缺点：更多的段合并会降低索引速度

您还可以参考，以了解有关mergeFcator如何工作以及如何影响索引性能的更多详细信息。但我认为关键是这一段：

如果创建一个新的段会导致最低级别的要超过合并因子值的段，则所有这些段都是合并在一起形成一个大段。因此，如果合并因子为10，每次合并都会创建一个单独的段这大约是其十种成分的十倍。当这些较大的段具有合并因子设置时，则它们又被合并成一个更大的单独部分。这这个过程可以无限期地继续下去

有一个很棒的关于分段合并的博客。