Python 在crfsuite中将标记用作attibute

Python 在crfsuite中将标记用作attibute,python,label,crf,crfsuite,Python,Label,Crf,Crfsuite,我是CRF的新手,我想用CRFsuite来标记单词。我阅读并理解了培训数据的格式,但是如果我想添加一些带有“近单词”标签的功能,培训数据文件是什么样子的 我用谷歌搜索了一下,但我没有发现这个问题。简单的回答是,你提供单词coffee的属性(比如w[-1]=waked来表示前面的单词)及其标签(noon),CRFsuite生成组成CRF模型的实际指示器函数(包括一个表明前面单词的标签是动词的功能)。它知道这样做,因为它使用了“一阶马尔可夫CRF,具有二元功能”,如您链接到的手册页面所述 一个重要的

我是CRF的新手,我想用CRFsuite来标记单词。我阅读并理解了培训数据的格式,但是如果我想添加一些带有“近单词”标签的功能,培训数据文件是什么样子的


我用谷歌搜索了一下,但我没有发现这个问题。

简单的回答是,你提供单词coffee的属性(比如
w[-1]=waked
来表示前面的单词)及其标签(
noon
),CRFsuite生成组成CRF模型的实际指示器函数(包括一个表明前面单词的标签是动词的功能)。它知道这样做,因为它使用了“一阶马尔可夫CRF,具有二元功能”,如您链接到的手册页面所述

一个重要的区别是(文档可以更精确地描述)在“特征”和“属性”之间的区别,其中特征是模型中表示(属性,标签)或(标签,标签)对的链接

因此,在您的示例中,
w[-1]=waked
是您提供的一个属性。
w[-1]=waked,NOUN
的组合是一个状态特征,标签之间的转换是一个转换特征,两者都由CRFsuite生成


我推荐,它更详细地讨论了这一点。

你能举一个例子说明你所说的“近词”是什么意思吗?例如,我想对句子“Bob在星巴克喝咖啡”进行词性标注,并想构建一些带有参数的功能,参数是前一个词的标记。例如:要将作品标记为“咖啡”,我可以使用前一个词的信息你是说CRFsuite学习的参数数量是
(n_属性*n_标签)
+
(n_标签*n_标签)
?一般来说,边缘特征不能在不违反线性链CRF属性的情况下也依赖于观察到的
X
?这是什么意思“不支持以属性和标签bigram为条件的功能”?