Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
solr 4.0中mergeFactor的使用_Solr_Lucene - Fatal编程技术网

solr 4.0中mergeFactor的使用

solr 4.0中mergeFactor的使用,solr,lucene,Solr,Lucene,我认为mergeFactor可以被认为是段内的最大数量,但当它设置为10时,索引后我得到了16个段,当段内的数量超过15和20时发生合并。我真的搞不懂合并因子的平均值 这是我的配置 <ramBufferSizeMB>32</ramBufferSizeMB> <maxBufferedDocs>100000</maxBufferedDocs> <mergeFactor>10</mergeFactor> 32 100000 10

我认为mergeFactor可以被认为是段内的最大数量,但当它设置为10时,索引后我得到了16个段,当段内的数量超过15和20时发生合并。我真的搞不懂合并因子的平均值

这是我的配置

<ramBufferSizeMB>32</ramBufferSizeMB>
<maxBufferedDocs>100000</maxBufferedDocs>
<mergeFactor>10</mergeFactor>
32
100000
10
来自

合并因子大致决定了分段的数量。 mergeFactor值告诉Lucene在将相同大小的段合并到单个段之前要构建多少段。它可以被认为是数字系统的基础

这不是一个确切的数字,而是如何在磁盘上管理索引的指南。以下是一些关于此值的不同设置对索引性能的影响的附加良好指导:

合并因素权衡

高值合并系数(例如,25):

  • 优点:通常可以提高索引速度
  • 缺点:合并频率较低,导致集合包含更多索引文件,这可能会减慢搜索速度
低值合并系数(例如,2):

  • 优点:索引文件的数量较少,这加快了搜索速度
  • 缺点:更多的段合并会降低索引速度
您还可以参考,以了解有关mergeFcator如何工作以及如何影响索引性能的更多详细信息。但我认为关键是这一段:

如果创建一个新的段会导致最低级别的 要超过合并因子值的段,则所有这些段都是 合并在一起形成一个大段。因此,如果合并 因子为10,每次合并都会创建一个单独的段 这大约是其十种成分的十倍。 当这些较大的段具有合并因子设置时,则 它们又被合并成一个更大的单独部分。这 这个过程可以无限期地继续下去


有一个很棒的关于分段合并的博客。