将openNLP Lemmatizer与Solr一起使用时索引需要很长时间

将openNLP Lemmatizer与Solr一起使用时索引需要很长时间,solr,lucene,opennlp,lemmatization,Solr,Lucene,Opennlp,Lemmatization,我正在尝试将openNLP与Solr集成。 我完成了openNLP柠檬化的集成,但是在索引文档时,完成索引(也提交)需要很长时间 模式: opennlp_文本字段是否索引为=“true” en lemmatizer.txt->文件大小为7mb 实施lemmatizer之前的索引时间为2到3mts,但是现在对于相同的文档是~2小时。。我不知道为什么在索引过程中会出现这种时差。当我分析字段时,我也找不到用于柠檬化的结果。请帮助我编写一个有效的结构,以便索引性能更快更好,并且了解最佳实现也会有

我正在尝试将openNLP与Solr集成。 我完成了openNLP柠檬化的集成,但是在索引文档时,完成索引(也提交)需要很长时间

模式

opennlp_文本字段是否索引为=“true”


en lemmatizer.txt->文件大小为7mb

实施lemmatizer之前的索引时间为2到3mts,但是现在对于相同的文档是~2小时。。我不知道为什么在索引过程中会出现这种时差。当我分析字段时,我也找不到用于柠檬化的结果。请帮助我编写一个有效的结构,以便索引性能更快更好,并且了解最佳实现也会有所帮助同样的


感谢和问候。

可能只是opennlp在缓慢地运行lemmatizer?当我试图从solr admin UI分析它时,无法从字段中获得所需的输出。我没有发现什么问题。您是否可以尝试为您的文档单独运行lemmatizer,而不建立索引并查看,我需要多长时间才能从分析器中删除它们:我需要从字段中删除index=true吗?可能只是opennlp在缓慢地运行lemmatizer?当我试图从solr admin UI中分析它时,无法从字段中获得所需的输出。我没有发现什么问题。你能试着单独运行lemmatizer吗对于您的文档,如果没有索引,请查看,需要多长时间才能从analyzer中删除这些:是否需要从字段中删除index=true?
<fieldType name="open_nlp" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.OpenNLPTokenizerFactory" sentenceModel="opennlp/en-sent.bin"  tokenizerModel="opennlp/en-token.bin"/>
    <filter class="solr.OpenNLPFilterFactory" posTaggerModel="opennlp/en-pos-maxent.bin"/>
   <filter class="solr.OpenNLPLemmatizerFilterFactory" dictionary="opennlp/en-lemmatizer.txt"/>
  </analyzer>
</fieldType>