Stanford nlp 使用Stanford解析器处理许多文本_Stanford Nlp

Stanford nlp 使用Stanford解析器处理许多文本

stanford-nlp

Stanford nlp 使用Stanford解析器处理许多文本,stanford-nlp,Stanford Nlp,我正在尝试使用斯坦福解析器处理许多文本片段。我使用这个命令输出到xml java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test 我只

我正在尝试使用斯坦福解析器处理许多文本片段。我使用这个命令输出到xml

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file test

我只需要对每个片段进行句子分析。问题是，代码段可以有多个句子，而输出的xml将所有句子放在一起，因此我无法知道哪些句子属于哪个代码段。我可以在不同的句子之间添加一个分隔词，但我认为必须有一个内置的功能来显示分隔。

有一个参数-fileList，它以逗号分隔的文件字符串作为输入

例如：

java -cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda-time.jar:jollyday.jar:ejml-VV.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -fileList=file1.txt,file2.txt,file3.txt java-cp stanford-corenlp-3.3.1.jar:stanford-corenlp-3.3.1-models.jar:xom.jar:joda time.jar:jollyday.jar:ejml-VV.jar-Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP-注释器标记化，ssplit，parse-fileList=file1.txt，file2.txt，file3.txt 有关更多详细信息，请查看感伤管道.java（edu.stanford.nlp.thousion）