Stanford nlp 在CoreNLP中,包含下划线字符的实体通过标记符号拆分为多个实体

Stanford nlp 在CoreNLP中,包含下划线字符的实体通过标记符号拆分为多个实体,stanford-nlp,tokenize,penn-treebank,Stanford Nlp,Tokenize,Penn Treebank,我注意到CORENLP3.9.2已经开始在标记化时将enti_关系拆分为多个,如“enti”、“Iu”、“ties” 我已经尝试使用tokenize.whitespace来解决这个问题。但我认为这将停止为“不能”和“不要”拆分标记。您可以做的一件事是用句点(.)替换下划线(u),解析器(我相信还有标记器)会将其解释为一个实体 例如,实体实体,后者作为一个实体保留 这并不能完全解决问题,但在紧要关头可以作为一种变通办法

我注意到CORENLP3.9.2已经开始在标记化时将enti_关系拆分为多个,如“enti”、“Iu”、“ties”


我已经尝试使用tokenize.whitespace来解决这个问题。但我认为这将停止为“不能”和“不要”拆分标记。

您可以做的一件事是用句点(.)替换下划线(u),解析器(我相信还有标记器)会将其解释为一个实体

例如,
实体
实体
,后者作为一个实体保留

这并不能完全解决问题,但在紧要关头可以作为一种变通办法