Java 基于斯坦福coreNLP的汉语分词器_Java_Nlp_Tokenize_Stanford Nlp

Java 基于斯坦福coreNLP的汉语分词器

java nlp stanford-nlp

Java 基于斯坦福coreNLP的汉语分词器,java,nlp,tokenize,stanford-nlp,Java,Nlp,Tokenize,Stanford Nlp,我使用Stanford coreNLP系统执行以下命令： java -cp stanford-corenlp-3.5.2.jar:stanford-chinese-corenlp-2015-04-20-models.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -annotators segment,ssplit -file input.txt 这对小

我使用Stanford coreNLP系统执行以下命令：

java -cp stanford-corenlp-3.5.2.jar:stanford-chinese-corenlp-2015-04-20-models.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -annotators segment,ssplit -file input.txt

这对小的中文文本非常有用。然而，我需要训练一个机器翻译系统，它只需要我对输入进行分段。所以我只需要使用

-annotators segment

，但是使用这个参数，系统输出一个空文件。我也可以使用

ssplit

注释器运行该工具，但我不想这样做，因为我的输入是一个已经包含一行一句的平行语料库，而且ssplit可能不会完美地分割句子，并在平行数据中产生问题

有没有办法告诉系统只进行分词，或者告诉它输入已经包含了一个逐行精确的句子？

改用斯坦福分词器：

$ wget http://nlp.stanford.edu/software/stanford-segmenter-2015-04-20.zip
$ unzip stanford-segmenter-2015-04-20.zip
$ echo "应有尽有的丰富选择定将为您的旅程增添无数的赏心乐事" > input.txt
$ bash stanford-segmenter-2015-04-20/segment.sh ctb input.txt UTF-8 0 > output.txt
$ cat output.txt
应有尽有 的 丰富 选择 定 将 为 您 的 旅程 增添 无数 的 赏心 乐事

除了Stanford Segmenter，还有许多其他Segmenter可能更适合，请参阅

要继续使用斯坦福NLP工具进行词性标注：

$ wget http://nlp.stanford.edu/software/stanford-postagger-full-2015-04-20.zip
$ unzip stanford-postagger-full-2015-04-20.zip
$ cd stanford-postagger-full-2015-01-30/
$ echo "应有尽有 的 丰富 选择 定 将 为 您 的 旅程 增添 无数 的 赏心 乐事" > input.txt
$ bash stanford-postagger.sh models/chinese-distsim.tagger input.txt > output.txt
$ cat output.txt 
应有尽有#VV 的#DEC 丰富#JJ 选择#NN 定#VV 将#AD 为#P 您#PN 的#DEG 旅程#NN 增添#VV 无数#CD 的#DEG 赏心#NN 乐事#NN

非常感谢阿尔瓦斯！很好用！你知道中国树库中的分割模型CTB是否也是斯坦福词库中使用的分割模型吗？我以后还需要使用POS标记器，如果我可以用同样的方法进行分割，那就太好了！是的，CTB来自中国树库，它应该与斯坦福POS标签一致。