Stanford nlp 使用Stanford解析器处理许多文本

Stanford nlp 使用Stanford解析器处理许多文本,stanford-nlp,Stanford Nlp,我正在尝试使用斯坦福解析器处理许多文本片段。我使用这个命令输出到xml java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test 我只

我正在尝试使用斯坦福解析器处理许多文本片段。我使用这个命令输出到xml

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test

我只需要对每个片段进行句子分析。问题是,代码段可以有多个句子,而输出的xml将所有句子放在一起,因此我无法知道哪些句子属于哪个代码段。我可以在不同的句子之间添加一个分隔词,但我认为必须有一个内置的功能来显示分隔。

有一个参数-fileList,它以逗号分隔的文件字符串作为输入

例如:

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -fileList=file1.txt,file2.txt,file3.txt java-cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda time.jar:jollyday.jar:ejml-VV.jar-Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP-注释器标记化,ssplit,parse-fileList=file1.txt,file2.txt,file3.txt 有关更多详细信息,请查看感伤管道.java(edu.stanford.nlp.thousion)