elasticsearch 集成Elasticsearch&;无需重新索引的斯坦福NLP,elasticsearch,lucene,nlp,stanford-nlp,opennlp,elasticsearch,Lucene,Nlp,Stanford Nlp,Opennlp" /> elasticsearch 集成Elasticsearch&;无需重新索引的斯坦福NLP,elasticsearch,lucene,nlp,stanford-nlp,opennlp,elasticsearch,Lucene,Nlp,Stanford Nlp,Opennlp" />

elasticsearch 集成Elasticsearch&;无需重新索引的斯坦福NLP

elasticsearch 集成Elasticsearch&;无需重新索引的斯坦福NLP,elasticsearch,lucene,nlp,stanford-nlp,opennlp,elasticsearch,Lucene,Nlp,Stanford Nlp,Opennlp,我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。到目前为止,我不知道ES能让我们在多大程度上利用其碎片中的Lucene(反转)索引 我们现在正在研究一系列NLP特性——首先是NER 斯坦福NLP上诉 没有插件可以将这两个包一起工作(?) 我还没有深入研究斯坦福NLP。然而,据我所见, 它起作用了 它完全依赖于自己的索引。无论传递给它的对象或类型是什么, 斯坦福NLP正在为它自己编制索引,并从那里开始 这将使系统对同一组文档使用两个不同的索引-

我们一直在系统中使用Elasticsearch。尽管我使用了它的分析器和查询。我没有深入研究它的索引。到目前为止,我不知道ES能让我们在多大程度上利用其碎片中的Lucene(反转)索引

我们现在正在研究一系列NLP特性——首先是NER 斯坦福NLP上诉

没有插件可以将这两个包一起工作(?)

我还没有深入研究斯坦福NLP。然而,据我所见, 它起作用了 它完全依赖于自己的索引。无论传递给它的对象或类型是什么, 斯坦福NLP正在为它自己编制索引,并从那里开始

这将使系统对同一组文档使用两个不同的索引-- 而这将是昂贵的

有没有办法绕过这个问题

我的一个场景是:让StanfordNLP处理Lucene段——ES已经构建的反向索引。 在这种情况下:

1.)斯坦福德NLP是否使用Lucene索引而不为自己重新编制索引?我不知道斯坦福德NLP的索引结构——甚至不知道它使用/不使用Lucene的程度

2.)在ES碎片中使用Lucene索引有任何限制吗?我们直接使用这些Lucene片段,绕过中间的旁路,会不会触底

我正试着把所有的东西放在一起--现在一切都悬而未决。对不起,我的问题太天真了

我知道OpenNLP及其插件。我没有检查-我猜这不会是“双重索引”和使用ES的索引(?) 不过,我们要找的是斯坦福德NLP


蒂亚

Stanford NER既不使用Lucene/SOLR索引,也不制作自己的文本索引。它将一段文本或一个标记序列映射到带有注释的标记序列

通常,您会在索引之前,在标记化期间,在摄取时对每个文档运行NER,然后为每个文档索引实体和单词


据我所知,目前还没有针对Stanford NER的ElasticSearch插件,但看看人们是如何使用Solr做到这一点的,可能会提供一些信息。Solr和ElasticSearch都在内部使用Lucene分析器和索引。

github上有一个存储库,它已经在ElasticSearch上试用了NER,使用:。它使用了该体系结构,因此应该很容易在ES实例中进行测试。我还没有尝试过这个插件,但我有以前工作中使用OpenNLP的经验,而且它有一个非常可靠的NER解析器。

thx用于响应。是否有一种方法可以输入一组索引的文档,即这些文档上的反向索引,以便StanfordNLP无需长时间处理即可将它们转换为自己的索引结构?没有办法避免双重索引——除非我在每个文档的基础上工作,获得一个StanfordNLP组件的结果并从中获取(?)。我现在正在研究将其转换为StanfordNLP类型或从StanfordNLP类型转换为StanfordNLP类型的过程时间效率。我现在一般都在看。我不知道每一个都具体做了什么,但是我想知道,如果使用这些处理整个文档库而不仅仅是几个文档的方法,我会有多大的顾虑。