Stanford nlp 忽略使用文件列表的Stanford NLP命令中有问题的文件

Stanford nlp 忽略使用文件列表的Stanford NLP命令中有问题的文件,stanford-nlp,Stanford Nlp,我正在使用StanfordCornelp获取大量文本的解析树。我通过使用命令调用单个JVM来处理文件列表- java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt 然而,这种方法存在一个问题。我的批处理中的一些文本可能太长或太复杂,因此程序内存不足,即将终止。此外,它返回的错误不包含它崩溃的文本文件的名称 但是我想让程序做的是忽略它

我正在使用StanfordCornelp获取大量文本的解析树。我通过使用命令调用单个JVM来处理文件列表-

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt
然而,这种方法存在一个问题。我的批处理中的一些文本可能太长或太复杂,因此程序内存不足,即将终止。此外,它返回的错误不包含它崩溃的文本文件的名称

但是我想让程序做的是忽略它遇到错误的文件,继续到文件列表中的下一个文件。我的一个选择是为每个文件分别调用一个java命令,但这会使整个过程几乎以指数级的速度减慢。是否可以使用filelist命令执行此操作

如果添加-parse.maxlen 100,则可以告诉解析器仅解析标记长度为100或更少的句子。您可以根据自己的目的微调所需的限制