Optimization Lucene:导入大型数据集期间的提交间隔

Optimization Lucene:导入大型数据集期间的提交间隔,optimization,indexing,lucene,commit,Optimization,Indexing,Lucene,Commit,在为大型数据集编制索引期间,建议采用哪些提交策略?我想增加约1000万。文档到新创建的索引,我不关心索引的任何中间结果(即严格分离索引阶段,然后搜索阶段) 在索引过程中,我目前每添加10000个文档就提交一次,但我意识到这个值只是一个常数,我从一年前的代码中反复复制它,我从来没有想过选择一个最佳值 我的问题归结如下: 如何处理未提交的文件?它们被保存在记忆中吗 如何实现最佳索引性能?多提交还是少提交

在为大型数据集编制索引期间,建议采用哪些提交策略?我想增加约1000万。文档到新创建的索引,我不关心索引的任何中间结果(即严格分离索引阶段,然后搜索阶段)

在索引过程中,我目前每添加10000个文档就提交一次,但我意识到这个值只是一个常数,我从一年前的代码中反复复制它,我从来没有想过选择一个最佳值

我的问题归结如下:

  • 如何处理未提交的文件?它们被保存在记忆中吗
  • 如何实现最佳索引性能?多提交还是少提交