Java 斯坦福大学coreNLP感悟不分句

Java 斯坦福大学coreNLP感悟不分句,java,stanford-nlp,Java,Stanford Nlp,我有文件要输入coreNLP的情感标签。我已经将文件分解成单独的句子,因此希望每个文件返回一个标记。如何使java命令返回一个标记 该命令类似于java-cp“*”-mx5g edu.stanford.nlp.thousion.mountainpipeline-stdin,输出如下: Annotation pipeline timing information: TokenizerAnnotator: 0.0 sec. WordsToSentencesAnnotator: 0.0 sec. TO

我有文件要输入coreNLP的情感标签。我已经将文件分解成单独的句子,因此希望每个文件返回一个标记。如何使java命令返回一个标记

该命令类似于
java-cp“*”-mx5g edu.stanford.nlp.thousion.mountainpipeline-stdin
,输出如下:

Annotation pipeline timing information:
TokenizerAnnotator: 0.0 sec.
WordsToSentencesAnnotator: 0.0 sec.
TOTAL: 0.0 sec. for 8 tokens at 296.3 tokens/sec.
Pipeline setup: 0.0 sec.
Total time for StanfordCoreNLP pipeline: 8.7 sec.

C:\stanford-corenlp-full-2015-04-20>java -cp "*" -mx5g edu.stanford.nlp.sentiment.SentimentPipeline -stdin
Adding annotator tokenize
TokenizerAnnotator: No tokenizer type provided. Defaulting to PTBTokenizer.
Adding annotator ssplit
Adding annotator parse
Loading parser from serialized file edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz ... done [0.4 sec].
Adding annotator sentiment
Reading in text from stdin.
Please enter one sentence per line.
Processing will end when EOF is reached.

Computer is fun. Not too fun.
  Positive
  Neutral
通过删除标点符号,如何使输出成为一个类似于下面所做的标记:

Computer is fun Not too fun.
  Positive  

似乎我应该能够很容易地做到这一点,因为存在
-ssplit.isOneSentence
,据我所知,情绪标记器使用
ssplit
,但我不知道如何重新编写命令来合并它(我已阅读)。我现在已经修复了这个问题,但是除非您编译自己的版本,否则在我们发布下一个版本的CoreNLP之前,这对您没有帮助

但也有另一种方法(可能更好)可以使用CoreNLP管道获取句子的情感标签

以下命令运行与您的命令相同的代码,但同时允许您为各个注释器指定更多选项(包括
-ssplit.eolonly
选项)

java -cp "*" -mx5g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,parse,sentiment" -ssplit.eolonly

非常感谢。我可以仅将-ssplit.eol与-file一起使用吗?如果运行
edu.stanford.nlp.thousion.mousionpipeline
,则无法使用此选项。但您可以使用
-file
参数运行
StanfordCoreNLP
管道(请参见上面的命令)。