Nlp 基于变换的词性标注(Brill标注)

Nlp 基于变换的词性标注(Brill标注),nlp,tagging,part-of-speech,Nlp,Tagging,Part Of Speech,Brill Tagger的缺点和优点是什么?您能为标签机提出一些可能的改进建议吗?Brill标签机最大的缺点是培训阶段所需的时间(请查看ACOPOST的时间戳,或者尝试使用一个时间戳来获得想法)。请记住,您应该总是考虑一个BrILER标签作为最后的标签被用来在一系列的标签系统(为简单的标签,我通常使用,并训练一个BrILL标签在一个HMM标签的输出)。除了使培训阶段更长之外,单独使用Brill标记器通常会导致非常大的、通常重叠的、有时是“不正确”的规则集(即,在“真实”标记上下文中会阻止许多正确

Brill Tagger的缺点和优点是什么?您能为标签机提出一些可能的改进建议吗?

Brill标签机最大的缺点是培训阶段所需的时间(请查看ACOPOST的时间戳,或者尝试使用一个时间戳来获得想法)。请记住,您应该总是考虑一个BrILER标签作为最后的标签被用来在一系列的标签系统(为简单的标签,我通常使用,并训练一个BrILL标签在一个HMM标签的输出)。除了使培训阶段更长之外,单独使用Brill标记器通常会导致非常大的、通常重叠的、有时是“不正确”的规则集(即,在“真实”标记上下文中会阻止许多正确标记的规则)

Brill标记器最大的优点在于它的模型是有意义的,特别是当你像通常那样以人类可读的格式存储规则时。手动检查统计标记器的模型是乏味的、容易出错的,并且不是很有用,而一组转换规则不仅可以手动理解和调整,甚至可以由以前没有NLP经验的人来完成(事实上,几年前,当一些语言课程的本科生评估在巴西葡萄牙语语料库上生成的规则时,我就这样做了)。事实上,你甚至可以完全自己编写规则集


简言之,虽然Brill标记器作为强大的级联标记器系统的最后一步很有用,但一般来说,它本身并不是最好的选择(如果您想使用单个标记器,我建议使用HMM标记器).我的建议是在另一个标记器的标记输出上训练并使用Brill标记器,最好是组合系统,如投票系统(即,当您设置三个或四个不同的标记器时,使用投票系统为每个标记选择最佳标记,然后将这些结果提供给Brill标记器,希望能够纠正以前系统中最常见的错误)。

论文中提出了一些改进Brill标记器的建议“独立性和承诺:快速培训和执行基于规则的POS标记者的假设”和“快速通道中基于转换的学习”。"此外,基于规则的词性和形态标记工具包还为Brill的标记器提供了改进,其中基于转换的规则以二叉决策树的形式存储。因此,RDRPOSTARGE比Brill的训练和标记性能更快,精确度更高。参见结果。

NLTK是否支持voting systems?我目前正在试验NLTK POS标记器,但使用了回退级联安排。我还没有添加Markov标记器。