Stanford nlp 如何防止Stanford POS tagger分裂句子?

Stanford nlp 如何防止Stanford POS tagger分裂句子?,stanford-nlp,pos-tagger,Stanford Nlp,Pos Tagger,如何防止Stanford POS tagger进行分句 我的文本已经分成了句子和标记,每行一句。我只需要每个令牌的POS标签 输出中的行数和令牌数应等于输入中的行数和令牌数 例如: $ echo ". . . a b c . . . d e f" \ | java \ -classpath stanford-postagger.jar \ edu.stanford.nlp.tagger.maxent.MaxentTagger \ -prop

如何防止Stanford POS tagger进行分句

我的文本已经分成了句子和标记,每行一句。我只需要每个令牌的POS标签

输出中的行数和令牌数应等于输入中的行数和令牌数

例如:

$ echo ". . . a b c . . . d e f" \
  | java \
     -classpath stanford-postagger.jar \
                edu.stanford.nlp.tagger.maxent.MaxentTagger \
     -prop myPropsFile.prop \
     -model models/german-fast.tagger
._$. ._$. ._$.

a_XY b_XY c_FM ._$. ._$. ._$.

d_FM e_FM f_VVFIN
我所期望的输出如下:

._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN

我已经将
tokenize=false
放入我的道具文件中,但它仍然会分割句子。(它还会在输出中的句子之间放置一个空行,这是不希望的。)

我发现,当输入位于用
-textFile
指定的文件中时,不会发生句子拆分,但我需要在(Hadoop)流式上下文中使用它,而这不是一个选项。您尝试过在斯坦福邮件列表中查找吗?他们的技术人员通常会快速回答问题!