Stanford nlp 在CoreNLP中，包含下划线字符的实体通过标记符号拆分为多个实体_Stanford Nlp_Tokenize_Penn Treebank

Stanford nlp 在CoreNLP中，包含下划线字符的实体通过标记符号拆分为多个实体

stanford-nlp

Stanford nlp 在CoreNLP中，包含下划线字符的实体通过标记符号拆分为多个实体,stanford-nlp,tokenize,penn-treebank,Stanford Nlp,Tokenize,Penn Treebank,我注意到CORENLP3.9.2已经开始在标记化时将enti_关系拆分为多个，如“enti”、“Iu”、“ties” 我已经尝试使用tokenize.whitespace来解决这个问题。但我认为这将停止为“不能”和“不要”拆分标记。您可以做的一件事是用句点（.）替换下划线（u），解析器（我相信还有标记器）会将其解释为一个实体例如，实体实体，后者作为一个实体保留这并不能完全解决问题，但在紧要关头可以作为一种变通办法

我注意到CORENLP3.9.2已经开始在标记化时将enti_关系拆分为多个，如“enti”、“Iu”、“ties”

我已经尝试使用tokenize.whitespace来解决这个问题。但我认为这将停止为“不能”和“不要”拆分标记。

您可以做的一件事是用句点（.）替换下划线（u），解析器（我相信还有标记器）会将其解释为一个实体

例如，

实体

实体

，后者作为一个实体保留

这并不能完全解决问题，但在紧要关头可以作为一种变通办法