Lucene实体提取

Lucene实体提取,lucene,text-mining,information-extraction,lucene-highlighter,Lucene,Text Mining,Information Extraction,Lucene Highlighter,给定一个有限的实体术语词典,我正在寻找一种使用Lucene智能标记进行实体提取的方法。目前,我已经能够将Lucene用于: -搜索带有模糊性的复杂短语 -突出显示结果 但是,我不知道如何: -获取匹配短语的准确偏移量 -对每个匹配进行特定于实体的注释(而不仅仅是每次点击的标记) 我尝试过使用explain()方法,但这只给出了查询中获得命中的术语,而不是原始文本中命中的偏移量 是否有人遇到过类似的问题,并愿意分享潜在的解决方案 提前感谢您的帮助 有关偏移量,请参见以下问题: 我不太明白你的第二个

给定一个有限的实体术语词典,我正在寻找一种使用Lucene智能标记进行实体提取的方法。目前,我已经能够将Lucene用于:
-搜索带有模糊性的复杂短语
-突出显示结果

但是,我不知道如何:
-获取匹配短语的准确偏移量
-对每个匹配进行特定于实体的注释(而不仅仅是每次点击的标记)

我尝试过使用explain()方法,但这只给出了查询中获得命中的术语,而不是原始文本中命中的偏移量

是否有人遇到过类似的问题,并愿意分享潜在的解决方案


提前感谢您的帮助

有关偏移量,请参见以下问题:

我不太明白你的第二个问题。在我看来,你似乎想从一家银行获得数据。要从存储字段中获取数据,请执行以下操作:

TopDocs results = searcher.Search(query, filter, num);
foreach (ScoreDoc result in results.scoreDocs)
{
    Document resultDoc = searcher.Doc(result.doc);
    string valOfField = resultDoc.Get("My Field");
}

上面是为了获得单个词的偏移量,但是,我需要匹配搜索的完整短语的偏移量。就存储字段而言,我如何直接从中获取字典中每个短语的数据?@Dima\u F:我添加了代码来演示如何使用存储字段。wrt短语:我认为你做不到。你可以看看是什么,但是你最好修改高亮代码以返回偏移量。非常感谢你在这方面的帮助!我会让你知道我在哪里可以得到与荧光灯的修改。