Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在solr 6.3中索引4000亿个文档_Solr_Lucene_Pysolr - Fatal编程技术网

在solr 6.3中索引4000亿个文档

在solr 6.3中索引4000亿个文档,solr,lucene,pysolr,Solr,Lucene,Pysolr,我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用pysolr在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr,它使用了add方法,该方法默认具有以下语法 add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, hand

我必须为solr 6.3编制大约4000亿个文档的索引。我正在使用
pysolr
在索引之前解析我的csv数据。如何加快索引速度。为了将文档索引到solr,它使用了add方法,该方法默认具有以下语法

add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')
一个基本选项是,我应该将commit和softcommit设置为false,以实现快速索引。这条路对吗


是否还有其他方法可以快速建立索引?

看看如果一次性提交,内存会非常昂贵。所以更好的选择是成批提交,所以我建议保留count变量

if(count == 10000)
{
perform solr commit operation
}

另外,将索引脚本设置为多线程,以快速完成这些批处理。

您可以从任何原因中获得好的建议,为什么不能直接批量提交CSV?CSV处理程序与批处理程序通常是一个非常快速的组合。我不知道如何直接批量提交CSV。请分享一些细节