Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征

Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征,machine-learning,nlp,named-entity-recognition,crf,crf++,Machine Learning,Nlp,Named Entity Recognition,Crf,Crf++,如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征 例如,如果句子Tumblr与Yahoo.合并,被归类为Business,那么在为crf编写培训文件时,我在哪里可以将标签Business作为一项功能?那么模板应该如何建模呢 列车文件应该是这样的吗 Tumblr business ORG merges business O with business O Yahoo business ORG 或者只包含带有ORG标

如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征

例如,如果句子
Tumblr与Yahoo.
合并,被归类为
Business
,那么在为crf编写培训文件时,我在哪里可以将标签
Business
作为一项功能?那么模板应该如何建模呢

列车文件应该是这样的吗

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG
或者只包含带有
ORG
标签的类别?为什么呢模板文件?

方法1: 您可以使用与前面相同的方式将
business
添加为功能,或者只需编写
1
而不是
business
。类似地,对于类别
体育
,您可以添加另一列,对于属于体育句子的单词,此列中的值应为
1
。 您还必须分别在模板文件中添加每一列

U42:%x[0,1] #for business
U43:%x[0,2] #for sports
方法2:
包含ORG的类别可能不是一个好主意,因为同一个ORG可以出现在不同的类别中。

< P>据我所知,你的火车文件是包括句子级注释的唯一方法,除非你考虑适应/实现一个考虑句子级特征的CRF。 如果您有足够的训练数据和数量有限的类别,此方法可能会影响句子类别的低权重:仅当命名实体模棱两可且计算的NE类别概率接近时,此方法才用于区分命名实体


最好的方法确实是使用/不使用此功能进行训练,看看它是否能提高NER!这应该是一个有趣的实验:)

我看到的方法1的关注点是,一般单词也会得到类别标签。这些一般性词语可以在其他句子中以不同的结构出现。你不认为这会削弱这个类别的重要性吗。因为如果你仔细想想,某些实体在特定类别的句子中出现的几率更高。就我个人而言,我更喜欢方法2,它增加了模板中标记类别的单词上下文,
U42:%x[0,1]/%x[-1,0]/%x[0,0]/%x[1,0]
等等。这在某种意义上是正确的吗?