在stanford core nlp中，如何在标记化之前识别n-gram？_Nlp_Tokenize_Named Entity Recognition_Stanford Nlp

在stanford core nlp中，如何在标记化之前识别n-gram？

nlp stanford-nlp

在stanford core nlp中，如何在标记化之前识别n-gram？,nlp,tokenize,named-entity-recognition,stanford-nlp,Nlp,Tokenize,Named Entity Recognition,Stanford Nlp,我正在尝试使用核心nlp注释管道，从标记化到ner_标记，使用默认设置。我确实注意到，“标记器”模块将，比如说“副总统”标识为两个单独的标记{Vice，President}，从而导致ner_标记标识为{o，TITLE}，而不是{副总统}和{TITLE}。如何让标记器将“副总裁”标识为单个标记，以帮助Ner_标记正确标识标题。您使用哪些属性将标题作为Ner标记？这不是标准标签之一，如果您使用的是TokensRegexNER注释器（例如，对于kbpannotator），则应选择“副总裁”等多词标题。

我正在尝试使用核心nlp注释管道，从标记化到ner_标记，使用默认设置。我确实注意到，“标记器”模块将，比如说“副总统”标识为两个单独的标记{Vice，President}，从而导致ner_标记标识为{o，TITLE}，而不是{副总统}和{TITLE}。如何让标记器将“副总裁”标识为单个标记，以帮助Ner_标记正确标识标题。

您使用哪些属性将标题作为Ner标记？这不是标准标签之一，如果您使用的是TokensRegexNER注释器（例如，对于

kbp

annotator），则应选择“副总裁”等多词标题。至少在corenlp.run上有效

总的来说，标记者的工作不是将标记范围压缩成一个单独的提及。标记赋予者应将“副”和“总统”分为不同的标记，这两个标记都应由适当的NER注释者标记为标题。您可能对

entitymentation

annotator感兴趣，该注释器将相邻的NER标记分组为NER提及——这将为您提供一个单独提及的“副总裁”，而不是两个标记为TITLE的标记。可以使用句子核心图上的或中的或函数检索这些提及。

您使用哪些属性获取标题作为NER标记？这不是标准标签之一，如果您使用的是TokensRegexNER注释器（例如，对于

kbp

annotator），则应选择“副总裁”等多词标题。至少在corenlp.run上有效

entitymentation

annotator感兴趣，该注释器将相邻的NER标记分组为NER提及——这将为您提供一个单独提及的“副总裁”，而不是两个标记为TITLE的标记。可以使用句子核心图上的或中的或函数检索这些提及