在dbpediaspotlight中lucene索引文件的用途是什么。。？_Lucene_Dbpedia_Named Entity Recognition_Lingpipe

在dbpediaspotlight中lucene索引文件的用途是什么。。？

lucene

在dbpediaspotlight中lucene索引文件的用途是什么。。？,lucene,dbpedia,named-entity-recognition,lingpipe,Lucene,Dbpedia,Named Entity Recognition,Lingpipe,我试图在给定的文本中找到命名实体。为此，我尝试使用dbpediaspotlight服务我能从中得到回应。然而，DBPedia数据集是有限的，所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体： Sachin Tendulkar人巴拉克·奥巴马（Barack Obama）####人。。。。等然后我解析这个文件并构建一个ExactDictionaryChunker对象现在我能够获得实体及其类型（在修改dbpedia代码之后）我的问题是：dbpediasp

我试图在给定的文本中找到命名实体。为此，我尝试使用dbpediaspotlight服务

我能从中得到回应。然而，DBPedia数据集是有限的，所以我尝试用我自己的字典替换他们的spotter.dict文件。我的字典每行包含实体：

Sachin Tendulkar人

巴拉克·奥巴马（Barack Obama）####人

。。。。等

然后我解析这个文件并构建一个

ExactDictionaryChunker

对象

现在我能够获得实体及其类型（在修改dbpedia代码之后）

我的问题是：dbpediaspotlight正在使用Lucene索引文件。我真的不明白他们使用这些文件的目的是什么

我们可以不用索引文件来做吗？索引文件的意义是什么？

Lucene在dbpediaspotlight的早期实现中被用来在知识库中存储每个实体的模型。该模型用于为我们提供上下文（从输入文本中提取）和实体之间的相关性度量。更具体地说，每个实体由向量

{t1:score1，t2:score2，…}

表示。在运行时，我们将输入文本建模为具有相同维度的向量，并测量输入向量和实体向量之间的余弦。在您的情况下，您必须将Sachin Tendulkar的向量添加到空间中（将文档添加到Lucene索引），以防它还不存在。不过，最新的实现已经从Lucene转移到内部内存上下文存储

看起来有一些关于Lucene在感谢你的回复中的用法的解释。。但在这里，他们根本没有讨论lucene指数。太抽象了。