Stanford nlp 如何在多线程中运行命令行CoreNLP?

Stanford nlp 如何在多线程中运行命令行CoreNLP?,stanford-nlp,Stanford Nlp,我需要解析很多文档(大约30万)。 正如stanford web中建议的那样,我创建了一个名为filelist.txt的文件,其中包含所有要解析的文件的路径 然后我调用了CoreNLP,如下所示 java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespa

我需要解析很多文档(大约30万)。 正如stanford web中建议的那样,我创建了一个名为filelist.txt的文件,其中包含所有要解析的文件的路径

然后我调用了CoreNLP,如下所示

java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespace true -filelist filelist.txt -outputDirectory $OUTDIR
但CPU使用率仅为100%,这意味着CoreNLP似乎不使用多线程。因此,解析速度太慢(每个文档大约10秒)

当我运行CoreNLP而不使用-filelist选项时,它作为多线程运行


CoreNLP中是否有使用多线程的选项或方法?

我相信命令行参数
-threads k
应该在
k
线程上注释文件列表。

谢谢Gabor。选项线程正确地解决了这个问题。这个问题由Gabor的答案解决。我可以使用-threads选项。