在stanford core nlp中,如何在标记化之前识别n-gram?

在stanford core nlp中,如何在标记化之前识别n-gram?,nlp,tokenize,named-entity-recognition,stanford-nlp,Nlp,Tokenize,Named Entity Recognition,Stanford Nlp,我正在尝试使用核心nlp注释管道,从标记化到ner_标记,使用默认设置。我确实注意到,“标记器”模块将,比如说“副总统”标识为两个单独的标记{Vice,President},从而导致ner_标记标识为{o,TITLE},而不是{副总统}和{TITLE}。如何让标记器将“副总裁”标识为单个标记,以帮助Ner_标记正确标识标题。您使用哪些属性将标题作为Ner标记?这不是标准标签之一,如果您使用的是TokensRegexNER注释器(例如,对于kbpannotator),则应选择“副总裁”等多词标题。

我正在尝试使用核心nlp注释管道,从标记化到ner_标记,使用默认设置。我确实注意到,“标记器”模块将,比如说“副总统”标识为两个单独的标记{Vice,President},从而导致ner_标记标识为{o,TITLE},而不是{副总统}和{TITLE}。如何让标记器将“副总裁”标识为单个标记,以帮助Ner_标记正确标识标题。

您使用哪些属性将标题作为Ner标记?这不是标准标签之一,如果您使用的是TokensRegexNER注释器(例如,对于
kbp
annotator),则应选择“副总裁”等多词标题。至少在corenlp.run上有效


总的来说,标记者的工作不是将标记范围压缩成一个单独的提及。标记赋予者应将“副”和“总统”分为不同的标记,这两个标记都应由适当的NER注释者标记为标题。您可能对
entitymentation
annotator感兴趣,该注释器将相邻的NER标记分组为NER提及——这将为您提供一个单独提及的“副总裁”,而不是两个标记为TITLE的标记。可以使用句子核心图上的或中的或函数检索这些提及。

您使用哪些属性获取标题作为NER标记?这不是标准标签之一,如果您使用的是TokensRegexNER注释器(例如,对于
kbp
annotator),则应选择“副总裁”等多词标题。至少在corenlp.run上有效

总的来说,标记者的工作不是将标记范围压缩成一个单独的提及。标记赋予者应将“副”和“总统”分为不同的标记,这两个标记都应由适当的NER注释者标记为标题。您可能对
entitymentation
annotator感兴趣,该注释器将相邻的NER标记分组为NER提及——这将为您提供一个单独提及的“副总裁”,而不是两个标记为TITLE的标记。可以使用句子核心图上的或中的或函数检索这些提及