Nlp 词性标注平滑中后缀的取值

Nlp 词性标注平滑中后缀的取值,nlp,pos-tagger,Nlp,Pos Tagger,我正在做一个词性标记。我正在处理带有后缀的未知单词 但主要的问题是我如何决定后缀的数量。。。它应该像魏斯代尔方法那样预先决定,还是我必须像萨缪尔森方法那样使用单词的最后几个字母表 哪种方法更好?快速谷歌搜索表明,Weischedel方法对于英语来说已经足够了,因为英语只有基本的词形变化。萨缪尔森方法似乎工作得更好,这在处理屈折语言时直观上是有意义的 引述: 处理未知单词使用萨缪尔森1993年的后缀分析,这似乎对屈折语言最有效 不过,这与魏斯代尔的方法没有直接的对比。后缀可能还不够。。。大多数OO

我正在做一个词性标记。我正在处理带有后缀的未知单词

但主要的问题是我如何决定后缀的数量。。。它应该像魏斯代尔方法那样预先决定,还是我必须像萨缪尔森方法那样使用单词的最后几个字母表


哪种方法更好?

快速谷歌搜索表明,Weischedel方法对于英语来说已经足够了,因为英语只有基本的词形变化。萨缪尔森方法似乎工作得更好,这在处理屈折语言时直观上是有意义的

引述:

处理未知单词使用萨缪尔森1993年的后缀分析,这似乎对屈折语言最有效


不过,这与魏斯代尔的方法没有直接的对比。

后缀可能还不够。。。大多数OOV单词都是命名实体,后缀没有告诉他们很多PASS。你可能想考虑其他特征,比如第一个字母的大写,数字的出现等等。BTW你在开发一个概率POS标签,或者基于规则,或者混合?它是用来处理英语文本的吗?是的…这是为英语。。。我正在开发概率标签。。。。。