在solr 6.3中索引4000亿个文档_Solr_Lucene_Pysolr

在solr 6.3中索引4000亿个文档

solr lucene

在solr 6.3中索引4000亿个文档,solr,lucene,pysolr,Solr,Lucene,Pysolr,我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用pysolr在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr，它使用了add方法，该方法默认具有以下语法 add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, hand

我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用

pysolr

在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr，它使用了add方法，该方法默认具有以下语法

add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')

一个基本选项是，我应该将commit和softcommit设置为false，以实现快速索引。这条路对吗

是否还有其他方法可以快速建立索引？

看看如果一次性提交，内存会非常昂贵。所以更好的选择是成批提交，所以我建议保留count变量

if(count == 10000)
{
perform solr commit operation
}

另外，将索引脚本设置为多线程，以快速完成这些批处理。

您可以从任何原因中获得好的建议，为什么不能直接批量提交CSV？CSV处理程序与批处理程序通常是一个非常快速的组合。我不知道如何直接批量提交CSV。请分享一些细节