Solr-Reindex推荐批量大小
我刚刚在Rails应用程序上安装了Solr(使用sunspot) 我希望solr在我的一个表上重新索引几列,这些表相当大(约50万条记录) 建议使用的批量大小是多少?目前我正在使用1000和它的运行超过一天Solr-Reindex推荐批量大小,solr,sunspot,sunspot-rails,Solr,Sunspot,Sunspot Rails,我刚刚在Rails应用程序上安装了Solr(使用sunspot) 我希望solr在我的一个表上重新索引几列,这些表相当大(约50万条记录) 建议使用的批量大小是多少?目前我正在使用1000和它的运行超过一天 有什么想法吗?批量大小没有那么重要,1000可能还可以,不过我不会再大了。它取决于文档的大小,每个文档索引了多少字节的文本 您是否在每批之后提交?这可能很慢。我加载了一个2300万文档索引,最后只有一次提交。这些文档很小,是书籍的元数据,大约需要90分钟。为了达到这个速度,我需要对负载使用一
有什么想法吗?批量大小没有那么重要,1000可能还可以,不过我不会再大了。它取决于文档的大小,每个文档索引了多少字节的文本 您是否在每批之后提交?这可能很慢。我加载了一个2300万文档索引,最后只有一次提交。这些文档很小,是书籍的元数据,大约需要90分钟。为了达到这个速度,我需要对负载使用一个SQL查询。使用任何子查询都会使速度降低10倍左右 我在DataInputHandler中使用JDBC支持,不过我可能会使用一些定制代码来进行DB查询并提交批处理 我听说CSV输入处理程序非常高效,因此将数据转储到CSV,然后使用该处理程序加载数据可能会奏效