在dbpediaspotlight中lucene索引文件的用途是什么。。?

在dbpediaspotlight中lucene索引文件的用途是什么。。?,lucene,dbpedia,named-entity-recognition,lingpipe,Lucene,Dbpedia,Named Entity Recognition,Lingpipe,我试图在给定的文本中找到命名实体。为此,我尝试使用dbpediaspotlight服务 我能从中得到回应。然而,DBPedia数据集是有限的,所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体: Sachin Tendulkar人 巴拉克·奥巴马(Barack Obama)####人 。。。。等 然后我解析这个文件并构建一个ExactDictionaryChunker对象 现在我能够获得实体及其类型(在修改dbpedia代码之后) 我的问题是:dbpediasp

我试图在给定的文本中找到命名实体。为此,我尝试使用dbpediaspotlight服务

  • 我能从中得到回应。然而,DBPedia数据集是有限的,所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体:

    Sachin Tendulkar人

    巴拉克·奥巴马(Barack Obama)####人

    。。。。等

  • 然后我解析这个文件并构建一个
    ExactDictionaryChunker
    对象

  • 现在我能够获得实体及其类型(在修改dbpedia代码之后)

  • 我的问题是:dbpediaspotlight正在使用Lucene索引文件。我真的不明白他们使用这些文件的目的是什么


    我们可以不用索引文件来做吗?索引文件的意义是什么?

    Lucene在dbpediaspotlight的早期实现中被用来在知识库中存储每个实体的模型。该模型用于为我们提供上下文(从输入文本中提取)和实体之间的相关性度量。更具体地说,每个实体由向量
    {t1:score1,t2:score2,…}
    表示。在运行时,我们将输入文本建模为具有相同维度的向量,并测量输入向量和实体向量之间的余弦。在您的情况下,您必须将Sachin Tendulkar的向量添加到空间中(将文档添加到Lucene索引),以防它还不存在。不过,最新的实现已经从Lucene转移到内部内存上下文存储

    看起来有一些关于Lucene在感谢你的回复中的用法的解释。。但在这里,他们根本没有讨论lucene指数。太抽象了。