Stanford nlp 改变标记化行为

Stanford nlp 改变标记化行为,stanford-nlp,Stanford Nlp,我在项目中使用Stanford Tokenizer,无法理解和修复特定模式的标记化 根据我的配置,如果我标记字符串: “你好,世界>” 我将正确获得: hello world > 但对于字符串: ” 我得到: <hello world> 我希望收到: < hello world > < 你好 世界 > 如果我可以将令牌配置成一种方式,而不是把这个特定的模式看作一个令牌? 以下是我当前为tonezer设置的选项: -小写-options“untonkeni

我在项目中使用Stanford Tokenizer,无法理解和修复特定模式的标记化

根据我的配置,如果我标记字符串:

“你好,世界>”

我将正确获得:

hello
world
>
但对于字符串:
我得到:

<hello world>

我希望收到:

<
hello
world
>
<
你好
世界
>

如果我可以将令牌配置成一种方式,而不是把这个特定的模式看作一个令牌?

以下是我当前为tonezer设置的选项:
-小写-options“untonkenizable=allKeep,americanize=true,normalizeother方括号=false,normalizeParentheses=false”

非常感谢你的帮助