Stanford nlp 如何防止Stanford POS tagger分裂句子？_Stanford Nlp_Pos Tagger

Stanford nlp 如何防止Stanford POS tagger分裂句子？

stanford-nlp

Stanford nlp 如何防止Stanford POS tagger分裂句子？,stanford-nlp,pos-tagger,Stanford Nlp,Pos Tagger,如何防止Stanford POS tagger进行分句我的文本已经分成了句子和标记，每行一句。我只需要每个令牌的POS标签输出中的行数和令牌数应等于输入中的行数和令牌数例如： $ echo ". . . a b c . . . d e f" \ | java \ -classpath stanford-postagger.jar \ edu.stanford.nlp.tagger.maxent.MaxentTagger \ -prop

如何防止Stanford POS tagger进行分句

我的文本已经分成了句子和标记，每行一句。我只需要每个令牌的POS标签

输出中的行数和令牌数应等于输入中的行数和令牌数

例如：

$ echo ". . . a b c . . . d e f" \
  | java \
     -classpath stanford-postagger.jar \
                edu.stanford.nlp.tagger.maxent.MaxentTagger \
     -prop myPropsFile.prop \
     -model models/german-fast.tagger
._$. ._$. ._$.

a_XY b_XY c_FM ._$. ._$. ._$.

d_FM e_FM f_VVFIN

我所期望的输出如下：

._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN

我已经将

tokenize=false

放入我的道具文件中，但它仍然会分割句子。（它还会在输出中的句子之间放置一个空行，这是不希望的。）

我发现，当输入位于用

-textFile

指定的文件中时，不会发生句子拆分，但我需要在（Hadoop）流式上下文中使用它，而这不是一个选项。您尝试过在斯坦福邮件列表中查找吗？他们的技术人员通常会快速回答问题！