斯坦福NLP解析器错误地拆分了我的句子

斯坦福NLP解析器错误地拆分了我的句子,nlp,stanford-nlp,Nlp,Stanford Nlp,我正在使用斯坦福解析器将我的语料库(用于机器翻译)解析为选区树。我能够通过GUI和命令行让解析器正常工作,但我遇到的一个问题是它基本上是如何“定义一行”的 通常,在使用语料库时,一个句子是一整串单词,直到它到达新行为止。使用斯坦福语法分析器,似乎需要一个句子一直到“句尾字符”,如句号或问号。在某些情况下,这会导致错误地将一个句子的一部分单独作为一个完整的句子,这会增加我的句子数量,并导致与目标数据集不一致。 是否有任何方法可以让解析器将一个句子保留到\n换行符之前,或者它就是这样定义的?如果使用

我正在使用斯坦福解析器将我的语料库(用于机器翻译)解析为选区树。我能够通过GUI和命令行让解析器正常工作,但我遇到的一个问题是它基本上是如何“定义一行”的

通常,在使用语料库时,一个句子是一整串单词,直到它到达新行为止。使用斯坦福语法分析器,似乎需要一个句子一直到“句尾字符”,如句号或问号。在某些情况下,这会导致错误地将一个句子的一部分单独作为一个完整的句子,这会增加我的句子数量,并导致与目标数据集不一致。
是否有任何方法可以让解析器将一个句子保留到
\n
换行符之前,或者它就是这样定义的?

如果使用
ssplit.eolonly
它会将文本视为每行一句。

假设使用完整的CoreNLP管道。如果您需要使用独立解析发行版,我可以研究如何在这种情况下设置该设置。