Nlp pos-tagger的Baum-Welch算法

Nlp pos-tagger的Baum-Welch算法,nlp,machine-learning,hidden-markov-models,pos-tagger,Nlp,Machine Learning,Hidden Markov Models,Pos Tagger,各位。 我用Baum-Welch算法来训练一个pos-tagger,这完全是在无监督的情况下进行的。 问题来了: 当我得到标签结果时,我只得到一个数字序列。 我不知道哪个标签代表VV,NN,DT。 如何解决这个问题?一般来说,没有办法解决。鲍姆·韦尔奇(Baum Welch)将发现具有类似分布的词语使用类别,但没有特别的理由假设这些类别将以任何直接的方式映射到任何特定语言理论假设的类别。因此,无监督的词性标记器主要适用于关注单词或短语的等价类,而不关注指定的特定标记的应用程序 但是,如果你真的需

各位。 我用Baum-Welch算法来训练一个pos-tagger,这完全是在无监督的情况下进行的。 问题来了: 当我得到标签结果时,我只得到一个数字序列。 我不知道哪个标签代表VV,NN,DT。
如何解决这个问题?

一般来说,没有办法解决。鲍姆·韦尔奇(Baum Welch)将发现具有类似分布的词语使用类别,但没有特别的理由假设这些类别将以任何直接的方式映射到任何特定语言理论假设的类别。因此,无监督的词性标记器主要适用于关注单词或短语的等价类,而不关注指定的特定标记的应用程序


但是,如果你真的需要人类可读的标签(例如,在开发过程中,评估你得到的结果是否有一点可信),我会手动标记几十个句子。然后你可以将你的B-W衍生标记器应用于标记的迷你语料库,以诱导类号和词性标签之间的映射。

你标记的是什么语言?你应该得到每个单词的概率,然后选择概率最高的一个。但我不知道哪个标签代表哪个词性标签。我只得到1 2 5 3在我看来,无监督的方式似乎不是创建一个有用的pos tagger的好选择。谢谢你的解释!!