<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 集成Elasticsearch&；无需重新索引的斯坦福NLP_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Lucene_Nlp_Stanford Nlp_Opennlp

elasticsearch 集成Elasticsearch&；无需重新索引的斯坦福NLP

lucene nlp stanford-nlp

elasticsearch 集成Elasticsearch&；无需重新索引的斯坦福NLP,elasticsearch,lucene,nlp,stanford-nlp,opennlp,elasticsearch,Lucene,Nlp,Stanford Nlp,Opennlp,我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。到目前为止，我不知道ES能让我们在多大程度上利用其碎片中的Lucene（反转）索引我们现在正在研究一系列NLP特性——首先是NER 斯坦福NLP上诉没有插件可以将这两个包一起工作（？）我还没有深入研究斯坦福NLP。然而，据我所见，它起作用了它完全依赖于自己的索引。无论传递给它的对象或类型是什么，斯坦福NLP正在为它自己编制索引，并从那里开始这将使系统对同一组文档使用两个不同的索引-

我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。到目前为止，我不知道ES能让我们在多大程度上利用其碎片中的Lucene（反转）索引

我们现在正在研究一系列NLP特性——首先是NER 斯坦福NLP上诉

没有插件可以将这两个包一起工作（？）

我还没有深入研究斯坦福NLP。然而，据我所见，它起作用了它完全依赖于自己的索引。无论传递给它的对象或类型是什么，斯坦福NLP正在为它自己编制索引，并从那里开始

这将使系统对同一组文档使用两个不同的索引-- 而这将是昂贵的

有没有办法绕过这个问题

我的一个场景是：让StanfordNLP处理Lucene段——ES已经构建的反向索引。在这种情况下：

1.）斯坦福德NLP是否使用Lucene索引而不为自己重新编制索引？我不知道斯坦福德NLP的索引结构——甚至不知道它使用/不使用Lucene的程度

2.）在ES碎片中使用Lucene索引有任何限制吗？我们直接使用这些Lucene片段，绕过中间的旁路，会不会触底

我正试着把所有的东西放在一起--现在一切都悬而未决。对不起，我的问题太天真了

我知道OpenNLP及其插件。我没有检查-我猜这不会是“双重索引”和使用ES的索引（？）不过，我们要找的是斯坦福德NLP

蒂亚

Stanford NER既不使用Lucene/SOLR索引，也不制作自己的文本索引。它将一段文本或一个标记序列映射到带有注释的标记序列

通常，您会在索引之前，在标记化期间，在摄取时对每个文档运行NER，然后为每个文档索引实体和单词

据我所知，目前还没有针对Stanford NER的ElasticSearch插件，但看看人们是如何使用Solr做到这一点的，可能会提供一些信息。Solr和ElasticSearch都在内部使用Lucene分析器和索引。

github上有一个存储库，它已经在ElasticSearch上试用了NER，使用：。它使用了该体系结构，因此应该很容易在ES实例中进行测试。我还没有尝试过这个插件，但我有以前工作中使用OpenNLP的经验，而且它有一个非常可靠的NER解析器。

thx用于响应。是否有一种方法可以输入一组索引的文档，即这些文档上的反向索引，以便StanfordNLP无需长时间处理即可将它们转换为自己的索引结构？没有办法避免双重索引——除非我在每个文档的基础上工作，获得一个StanfordNLP组件的结果并从中获取（？）。我现在正在研究将其转换为StanfordNLP类型或从StanfordNLP类型转换为StanfordNLP类型的过程时间效率。我现在一般都在看。我不知道每一个都具体做了什么，但是我想知道，如果使用这些处理整个文档库而不仅仅是几个文档的方法，我会有多大的顾虑。