Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征
如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征 例如,如果句子Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征,machine-learning,nlp,named-entity-recognition,crf,crf++,Machine Learning,Nlp,Named Entity Recognition,Crf,Crf++,如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征 例如,如果句子Tumblr与Yahoo.合并,被归类为Business,那么在为crf编写培训文件时,我在哪里可以将标签Business作为一项功能?那么模板应该如何建模呢 列车文件应该是这样的吗 Tumblr business ORG merges business O with business O Yahoo business ORG 或者只包含带有ORG标
Tumblr与Yahoo.
合并,被归类为Business
,那么在为crf编写培训文件时,我在哪里可以将标签Business
作为一项功能?那么模板应该如何建模呢
列车文件应该是这样的吗
Tumblr business ORG
merges business O
with business O
Yahoo business ORG
或者只包含带有ORG
标签的类别?为什么呢模板文件?方法1:
您可以使用与前面相同的方式将business
添加为功能,或者只需编写1
而不是business
。类似地,对于类别体育
,您可以添加另一列,对于属于体育句子的单词,此列中的值应为1
。
您还必须分别在模板文件中添加每一列
U42:%x[0,1] #for business
U43:%x[0,2] #for sports
方法2:
包含ORG的类别可能不是一个好主意,因为同一个ORG可以出现在不同的类别中。 < P>据我所知,你的火车文件是包括句子级注释的唯一方法,除非你考虑适应/实现一个考虑句子级特征的CRF。 如果您有足够的训练数据和数量有限的类别,此方法可能会影响句子类别的低权重:仅当命名实体模棱两可且计算的NE类别概率接近时,此方法才用于区分命名实体
最好的方法确实是使用/不使用此功能进行训练,看看它是否能提高NER!这应该是一个有趣的实验:)我看到的方法1的关注点是,一般单词也会得到类别标签。这些一般性词语可以在其他句子中以不同的结构出现。你不认为这会削弱这个类别的重要性吗。因为如果你仔细想想,某些实体在特定类别的句子中出现的几率更高。就我个人而言,我更喜欢方法2,它增加了模板中标记类别的单词上下文,
U42:%x[0,1]/%x[-1,0]/%x[0,0]/%x[1,0]
等等。这在某种意义上是正确的吗?