Java 斯坦福大学coreNLP感悟不分句_Java_Stanford Nlp

Java 斯坦福大学coreNLP感悟不分句

java stanford-nlp

Java 斯坦福大学coreNLP感悟不分句,java,stanford-nlp,Java,Stanford Nlp,我有文件要输入coreNLP的情感标签。我已经将文件分解成单独的句子，因此希望每个文件返回一个标记。如何使java命令返回一个标记该命令类似于java-cp“*”-mx5g edu.stanford.nlp.thousion.mountainpipeline-stdin，输出如下： Annotation pipeline timing information: TokenizerAnnotator: 0.0 sec. WordsToSentencesAnnotator: 0.0 sec. TO

我有文件要输入coreNLP的情感标签。我已经将文件分解成单独的句子，因此希望每个文件返回一个标记。如何使java命令返回一个标记

该命令类似于

java-cp“*”-mx5g edu.stanford.nlp.thousion.mountainpipeline-stdin

，输出如下：

Annotation pipeline timing information:
TokenizerAnnotator: 0.0 sec.
WordsToSentencesAnnotator: 0.0 sec.
TOTAL: 0.0 sec. for 8 tokens at 296.3 tokens/sec.
Pipeline setup: 0.0 sec.
Total time for StanfordCoreNLP pipeline: 8.7 sec.

C:\stanford-corenlp-full-2015-04-20>java -cp "*" -mx5g edu.stanford.nlp.sentiment.SentimentPipeline -stdin
Adding annotator tokenize
TokenizerAnnotator: No tokenizer type provided. Defaulting to PTBTokenizer.
Adding annotator ssplit
Adding annotator parse
Loading parser from serialized file edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz ... done [0.4 sec].
Adding annotator sentiment
Reading in text from stdin.
Please enter one sentence per line.
Processing will end when EOF is reached.

Computer is fun. Not too fun.
  Positive
  Neutral

通过删除标点符号，如何使输出成为一个类似于下面所做的标记：

Computer is fun Not too fun.
  Positive

似乎我应该能够很容易地做到这一点，因为存在

-ssplit.isOneSentence

，据我所知，情绪标记器使用

ssplit

，但我不知道如何重新编写命令来合并它（我已阅读）。我现在已经修复了这个问题，但是除非您编译自己的版本，否则在我们发布下一个版本的CoreNLP之前，这对您没有帮助

但也有另一种方法（可能更好）可以使用CoreNLP管道获取句子的情感标签

以下命令运行与您的命令相同的代码，但同时允许您为各个注释器指定更多选项（包括

-ssplit.eolonly

选项）

java -cp "*" -mx5g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,parse,sentiment" -ssplit.eolonly

非常感谢。我可以仅将-ssplit.eol与-file一起使用吗？如果运行

edu.stanford.nlp.thousion.mousionpipeline

，则无法使用此选项。但您可以使用

-file

参数运行

StanfordCoreNLP

管道（请参见上面的命令）。