Linux Stanford词性标记器未标记中文文本_Linux_Nlp_Stanford Nlp_Pos Tagger

Linux Stanford词性标记器未标记中文文本

linux nlp stanford-nlp

Linux Stanford词性标记器未标记中文文本,linux,nlp,stanford-nlp,pos-tagger,Linux,Nlp,Stanford Nlp,Pos Tagger,我正在使用Stanford POS Tagger（这是第一次），虽然它正确地标记了英语，但即使在更改模型参数时，它似乎也无法识别（简体）中文。我忽略了什么吗我已从此处下载并解压缩了最新的完整版本：然后我将示例文本输入到“sample input.txt”中这是一个测试的句子。这是另一个句子。然后我就跑 ./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt 预期的输出是用词性标记每个单词，但它将整个文

我正在使用Stanford POS Tagger（这是第一次），虽然它正确地标记了英语，但即使在更改模型参数时，它似乎也无法识别（简体）中文。我忽略了什么吗

我已从此处下载并解压缩了最新的完整版本：

然后我将示例文本输入到“sample input.txt”中

这是一个测试的句子。这是另一个句子。

然后我就跑

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词，但它将整个文本字符串识别为一个单词：

从tagger models/chinese-distsim.tagger加载默认属性

从models/chinese-distsim.tagger读取POS-tagger模型。。。完成[3.5秒]

這是一個測試的句子。這是另一個句子。#天然橡胶

以每秒30.30个单词的速度标记1个单词

非常感谢您的帮助。

我终于意识到，这个pos标签中不包括标记化/分段。在将这些单词输入标记器之前，它们必须用空格分隔。对于那些对中文最大熵分词感兴趣的人，这里有一个单独的软件包：

谢谢大家。

另外，我已经检查了文件和设置是否为UTF-8格式。我还尝试了不同的示例文本。是的，在传递到POS标记器之前，您需要传递到分段器。