Stanford nlp 如何防止Stanford POS tagger分裂句子?
如何防止Stanford POS tagger进行分句 我的文本已经分成了句子和标记,每行一句。我只需要每个令牌的POS标签 输出中的行数和令牌数应等于输入中的行数和令牌数 例如:Stanford nlp 如何防止Stanford POS tagger分裂句子?,stanford-nlp,pos-tagger,Stanford Nlp,Pos Tagger,如何防止Stanford POS tagger进行分句 我的文本已经分成了句子和标记,每行一句。我只需要每个令牌的POS标签 输出中的行数和令牌数应等于输入中的行数和令牌数 例如: $ echo ". . . a b c . . . d e f" \ | java \ -classpath stanford-postagger.jar \ edu.stanford.nlp.tagger.maxent.MaxentTagger \ -prop
$ echo ". . . a b c . . . d e f" \
| java \
-classpath stanford-postagger.jar \
edu.stanford.nlp.tagger.maxent.MaxentTagger \
-prop myPropsFile.prop \
-model models/german-fast.tagger
._$. ._$. ._$.
a_XY b_XY c_FM ._$. ._$. ._$.
d_FM e_FM f_VVFIN
我所期望的输出如下:
._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN
我已经将
tokenize=false
放入我的道具文件中,但它仍然会分割句子。(它还会在输出中的句子之间放置一个空行,这是不希望的。)我发现,当输入位于用-textFile
指定的文件中时,不会发生句子拆分,但我需要在(Hadoop)流式上下文中使用它,而这不是一个选项。您尝试过在斯坦福邮件列表中查找吗?他们的技术人员通常会快速回答问题!