Performance 索引多变量索引字段时的Solr性能_Performance_Indexing_Solr_Lucene_Multivalue

Performance 索引多变量索引字段时的Solr性能

performance indexing solr lucene

Performance 索引多变量索引字段时的Solr性能,performance,indexing,solr,lucene,multivalue,Performance,Indexing,Solr,Lucene,Multivalue,我使用的是Solr7.2，我试图用dataimportHandler为133k文档编制索引问题是索引化需要花费大量时间（4小时），尤其是在索引了50k个文档之后。在对这个问题进行了大量分析之后，我发现索引的多值的字段导致了这种严重的索引化。但是，当将多变量字段设置为index=“false”时，索引速度非常快（几分钟）有没有一种方法可以加快指数化，改变配置或其他任何事情 <fieldType name="text_fr_lemmatized" class="solr.TextF

我使用的是Solr7.2，我试图用dataimportHandler为133k文档编制索引

问题是索引化需要花费大量时间（4小时），尤其是在索引了50k个文档之后。在对这个问题进行了大量分析之后，我发现索引的多值的字段导致了这种严重的索引化。但是，当将多变量字段设置为index=“false”时，索引速度非常快（几分钟）
有没有一种方法可以加快指数化，改变配置或其他任何事情

<fieldType name="text_fr_lemmatized" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-select.txt" /> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-apostrophe.txt" /> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ponctuation.txt" /> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt" /> <tokenizer class="solr.StandardTokenizerFactory" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.ElisionFilterFactory" ignoreCase="true" articles="lang/contractions_fr.txt" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ar.txt" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_fr.txt" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" /> <filter class="solr.HunspellStemFilterFactory" dictionary="fr_FR.dic" affix="fr_FR.aff" ignoreCase="true" strictAffixParsing="true" /> <filter class="solr.LowerCaseFilterFactory" /> </analyzer>

多值字段的字段类型是什么，它们的analyzer/tokenizer/filter设置是什么？我刚刚更新了我的帖子，其中包含analyzer/tokenizer/filter的详细信息，对于字段类型，它们都是文本。如果设置
index=“false”
，你并没有真正对这个领域做任何事情，所以当你没有为这个领域处理任何事情的时候，事情进展得很快也不是很奇怪。如果你更频繁地承诺，它会更快吗？如何从同一数据库一次索引50k个文档，而不是在同一批中索引所有133k个文档？也就是说，在DB层或Solr部分需要时间吗？当我设置indexed=false时，所有的链接都很快，非常快。但我以后无法搜索这些字段。我过去常常在索引结束时提交一次，我认为提交将减少索引时间。我试图通过将数据划分为块来索引数据，每个块都有50K，但prolem仍然相同。第一个区块在20分钟内索引，另一个区块在2小时内索引。我发现这会降低性能。我不知道为什么。