Stanford nlp 忽略使用文件列表的Stanford NLP命令中有问题的文件_Stanford Nlp

Stanford nlp 忽略使用文件列表的Stanford NLP命令中有问题的文件

stanford-nlp

Stanford nlp 忽略使用文件列表的Stanford NLP命令中有问题的文件,stanford-nlp,Stanford Nlp,我正在使用StanfordCornelp获取大量文本的解析树。我通过使用命令调用单个JVM来处理文件列表- java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt 然而，这种方法存在一个问题。我的批处理中的一些文本可能太长或太复杂，因此程序内存不足，即将终止。此外，它返回的错误不包含它崩溃的文本文件的名称但是我想让程序做的是忽略它

我正在使用StanfordCornelp获取大量文本的解析树。我通过使用命令调用单个JVM来处理文件列表-

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props myprops.props ] -filelist filelist.txt

然而，这种方法存在一个问题。我的批处理中的一些文本可能太长或太复杂，因此程序内存不足，即将终止。此外，它返回的错误不包含它崩溃的文本文件的名称

但是我想让程序做的是忽略它遇到错误的文件，继续到文件列表中的下一个文件。我的一个选择是为每个文件分别调用一个java命令，但这会使整个过程几乎以指数级的速度减慢。是否可以使用filelist命令执行此操作

如果添加-parse.maxlen 100，则可以告诉解析器仅解析标记长度为100或更少的句子。您可以根据自己的目的微调所需的限制