Linux Stanford词性标记器未标记中文文本

Linux Stanford词性标记器未标记中文文本,linux,nlp,stanford-nlp,pos-tagger,Linux,Nlp,Stanford Nlp,Pos Tagger,我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英语,但即使在更改模型参数时,它似乎也无法识别(简体)中文。我忽略了什么吗 我已从此处下载并解压缩了最新的完整版本: 然后我将示例文本输入到“sample input.txt”中 这是一个测试的句子。这是另一个句子。 然后我就跑 ./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt 预期的输出是用词性标记每个单词,但它将整个文

我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英语,但即使在更改模型参数时,它似乎也无法识别(简体)中文。我忽略了什么吗

我已从此处下载并解压缩了最新的完整版本:

然后我将示例文本输入到“sample input.txt”中

这是一个测试的句子。这是另一个句子。

然后我就跑

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词,但它将整个文本字符串识别为一个单词:

从tagger models/chinese-distsim.tagger加载默认属性

从models/chinese-distsim.tagger读取POS-tagger模型。。。完成[3.5秒]

這是一個測試的句子。這是另一個句子。#天然橡胶

以每秒30.30个单词的速度标记1个单词


非常感谢您的帮助。

我终于意识到,这个pos标签中不包括标记化/分段。在将这些单词输入标记器之前,它们必须用空格分隔。对于那些对中文最大熵分词感兴趣的人,这里有一个单独的软件包:


谢谢大家。

另外,我已经检查了文件和设置是否为UTF-8格式。我还尝试了不同的示例文本。是的,在传递到POS标记器之前,您需要传递到分段器。