Stanford nlp 斯坦福NLP培训文档预处理器

Stanford nlp 斯坦福NLP培训文档预处理器,stanford-nlp,training-data,Stanford Nlp,Training Data,斯坦福NLP是否为DocumentPreprocessor提供了一种训练方法来训练自己的语料库并创建自己的句子分割模型 我正在处理德语句子,我需要为句子分割任务创建自己的德语模型。因此,我需要训练分句器,DocumentPreprocessor 有什么方法可以做到吗?没有。目前,所有欧洲语言的标记化都是由一个(手写的)有限自动机完成的。基于机器学习的标记化用于汉语和阿拉伯语。目前,所有语言的句子分割都是根据规则进行的,利用标记器的决策。(当然,这只是现在的情况,而不是必然的情况。) 目前,我们没

斯坦福NLP是否为
DocumentPreprocessor
提供了一种训练方法来训练自己的语料库并创建自己的句子分割模型

我正在处理德语句子,我需要为句子分割任务创建自己的德语模型。因此,我需要训练分句器,
DocumentPreprocessor


有什么方法可以做到吗?

没有。目前,所有欧洲语言的标记化都是由一个(手写的)有限自动机完成的。基于机器学习的标记化用于汉语和阿拉伯语。目前,所有语言的句子分割都是根据规则进行的,利用标记器的决策。(当然,这只是现在的情况,而不是必然的情况。)

目前,我们没有单独的德语标记器/分句器。当前属性文件只是重新使用英文属性文件。这显然是次优的。如果有人想为德国人生产一些东西,那就太好了。(我们可能会在某个时候这样做,但德国的发展目前并不在优先事项之首。)