Stanford nlp 改变标记化行为_Stanford Nlp

Stanford nlp 改变标记化行为

stanford-nlp

Stanford nlp 改变标记化行为,stanford-nlp,Stanford Nlp,我在项目中使用Stanford Tokenizer，无法理解和修复特定模式的标记化根据我的配置，如果我标记字符串： “你好，世界>” 我将正确获得： hello world > 但对于字符串： ” 我得到： <hello world> 我希望收到： < hello world > < 你好世界 > 如果我可以将令牌配置成一种方式，而不是把这个特定的模式看作一个令牌？以下是我当前为tonezer设置的选项： -小写-options“untonkeni

我在项目中使用Stanford Tokenizer，无法理解和修复特定模式的标记化

根据我的配置，如果我标记字符串：

“你好，世界>”

我将正确获得：

hello
world
>

但对于字符串：

”

我得到：

<hello world>

我希望收到：

<
hello
world
>

<
你好
世界
>

如果我可以将令牌配置成一种方式，而不是把这个特定的模式看作一个令牌？

以下是我当前为tonezer设置的选项：

-小写-options“untonkenizable=allKeep，americanize=true，normalizeother方括号=false，normalizeParentheses=false”

非常感谢你的帮助