在solr 6.3中索引4000亿个文档
我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用在solr 6.3中索引4000亿个文档,solr,lucene,pysolr,Solr,Lucene,Pysolr,我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用pysolr在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr,它使用了add方法,该方法默认具有以下语法 add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, hand
pysolr
在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr,它使用了add方法,该方法默认具有以下语法
add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')
一个基本选项是,我应该将commit和softcommit设置为false,以实现快速索引。这条路对吗
是否还有其他方法可以快速建立索引?看看如果一次性提交,内存会非常昂贵。所以更好的选择是成批提交,所以我建议保留count变量
if(count == 10000)
{
perform solr commit operation
}
另外,将索引脚本设置为多线程,以快速完成这些批处理。您可以从任何原因中获得好的建议,为什么不能直接批量提交CSV?CSV处理程序与批处理程序通常是一个非常快速的组合。我不知道如何直接批量提交CSV。请分享一些细节