Stanford nlp 如何用CoreNLP';覆盖命名实体的标记;s RegexNER而不指定原始标记

Stanford nlp 如何用CoreNLP';覆盖命名实体的标记;s RegexNER而不指定原始标记,stanford-nlp,Stanford Nlp,我知道CoreNLP的RegexNER允许我使用映射文件覆盖标记。例如我有一个单词EGFR,CoreNLP将其视为一个组织。如果在映射文件中有以下行,它仍然将其标记为一个组织 EGFR基因 如果我将该行更改为如下所示: EGFR基因组织 然后CoreNLP将其标记为一个基因 但要做到这一点,我必须知道CoreNLP将EGFR标记为一个组织,我不能总是知道映射文件中的每个单词都是这样。现在我的问题是,有没有办法告诉RegexNER覆盖EGFR的标签,不管原始标签是什么?差不多 EGFR基因* 您可

我知道CoreNLP的RegexNER允许我使用映射文件覆盖标记。例如我有一个单词EGFR,CoreNLP将其视为一个组织。如果在映射文件中有以下行,它仍然将其标记为一个组织

EGFR基因

如果我将该行更改为如下所示:

EGFR基因组织

然后CoreNLP将其标记为一个基因

但要做到这一点,我必须知道CoreNLP将EGFR标记为一个组织,我不能总是知道映射文件中的每个单词都是这样。现在我的问题是,有没有办法告诉RegexNER覆盖EGFR的标签,不管原始标签是什么?差不多

EGFR基因*


您可以提供以逗号分隔的标记列表,这些标记可以被覆盖

例如:

ORGANIZATION,PERSON,LOCATION,MISC
将允许它覆盖所有这些标记

我认为目前没有覆盖所有选项,因此您必须列出要覆盖的每种类型

如果您总是想用规则中的内容覆盖所有内容,则可以使用此选项将其提供给TokensRegexGenerator

regexner.backgroundSymbol ORGANIZATION,PERSON,LOCATION,MISC,O
然后每个规则不必有一个列表