Stanford nlp 如何处理StanfordNLP服务器的100K字符限制?

Stanford nlp 如何处理StanfordNLP服务器的100K字符限制?,stanford-nlp,Stanford Nlp,我正在尝试用StanfordNLP解析书籍长度的文本块。http请求工作得很好,但是StanfordCoreNLPServer.java中的文本长度MAX_CHAR_长度有一个不可配置的100KB限制 目前,我在将文本发送到服务器之前将其切碎,但即使我尝试在句子和段落之间分割,在这些块之间也会丢失一些有用的共同引用信息。据推测,我可以解析重叠较大的块并将它们链接在一起,但这似乎(1)不雅观,(2)需要相当多的维护 是否有更好的方法来配置服务器或请求以删除手动分块或跨分块保留信息 顺便说一句,我正

我正在尝试用StanfordNLP解析书籍长度的文本块。http请求工作得很好,但是StanfordCoreNLPServer.java中的文本长度MAX_CHAR_长度有一个不可配置的100KB限制

目前,我在将文本发送到服务器之前将其切碎,但即使我尝试在句子和段落之间分割,在这些块之间也会丢失一些有用的共同引用信息。据推测,我可以解析重叠较大的块并将它们链接在一起,但这似乎(1)不雅观,(2)需要相当多的维护

是否有更好的方法来配置服务器或请求以删除手动分块或跨分块保留信息


顺便说一句,我正在使用python请求模块发布帖子,但我怀疑这会有什么不同,除非corenlp python包装器以某种方式解决这个问题。

您应该能够使用标志
-maxCharLength-1
启动服务器,这样就可以摆脱句子长度限制。请注意,这在生产中是不可取的:任意大的文档可能会消耗任意大的内存(和时间),特别是对于coref之类的东西


服务器的选项列表应该可以通过使用
-help
调用服务器来访问,并且是。

啊,我看到了提交,从8月份开始。我使用的是之前的版本。我会更新的。谢谢它不是在3.8.0中吗?我知道它是相对较新的(也就是说,肯定不是在服务器的第一个版本中),但希望至少还是在最近的版本中。不,3.8.0 src仍然具有静态MAX_CHAR_LENGTH.次优。好的,它将在下一个版本中,或者您可以从GitHub项目的根目录中使用
ant-jar
手动构建jar。这里有一些构建最新版本的文档: