Performance 索引多变量索引字段时的Solr性能

Performance 索引多变量索引字段时的Solr性能,performance,indexing,solr,lucene,multivalue,Performance,Indexing,Solr,Lucene,Multivalue,我使用的是Solr7.2,我试图用dataimportHandler为133k文档编制索引 问题是索引化需要花费大量时间(4小时),尤其是在索引了50k个文档之后。 在对这个问题进行了大量分析之后,我发现索引的多值的字段导致了这种严重的索引化。但是,当将多变量字段设置为index=“false”时,索引速度非常快(几分钟) 有没有一种方法可以加快指数化,改变配置或其他任何事情 <fieldType name="text_fr_lemmatized" class="solr.TextF

我使用的是Solr7.2,我试图用dataimportHandler为133k文档编制索引

问题是索引化需要花费大量时间(4小时),尤其是在索引了50k个文档之后。 在对这个问题进行了大量分析之后,我发现索引的多值的字段导致了这种严重的索引化。但是,当将多变量字段设置为index=“false”时,索引速度非常快(几分钟)

有没有一种方法可以加快指数化,改变配置或其他任何事情

   <fieldType name="text_fr_lemmatized" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-select.txt" />
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-apostrophe.txt" />
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ponctuation.txt" />   
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt" />   
     <tokenizer class="solr.StandardTokenizerFactory" />

     <filter class="solr.LowerCaseFilterFactory" />

     <filter class="solr.ElisionFilterFactory" ignoreCase="true" articles="lang/contractions_fr.txt" />


     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ar.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_fr.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" />
     <filter class="solr.HunspellStemFilterFactory" dictionary="fr_FR.dic" affix="fr_FR.aff" ignoreCase="true" strictAffixParsing="true" />

         <filter class="solr.LowerCaseFilterFactory" />

  </analyzer>


多值字段的字段类型是什么,它们的analyzer/tokenizer/filter设置是什么?我刚刚更新了我的帖子,其中包含analyzer/tokenizer/filter的详细信息,对于字段类型,它们都是文本。如果设置
index=“false”
,你并没有真正对这个领域做任何事情,所以当你没有为这个领域处理任何事情的时候,事情进展得很快也不是很奇怪。如果你更频繁地承诺,它会更快吗?如何从同一数据库一次索引50k个文档,而不是在同一批中索引所有133k个文档?也就是说,在DB层或Solr部分需要时间吗?当我设置indexed=false时,所有的链接都很快,非常快。但我以后无法搜索这些字段。我过去常常在索引结束时提交一次,我认为提交将减少索引时间。我试图通过将数据划分为块来索引数据,每个块都有50K,但prolem仍然相同。第一个区块在20分钟内索引,另一个区块在2小时内索引。我发现这会降低性能。我不知道为什么。