Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征_Machine Learning_Nlp_Named Entity Recognition_Crf_Crf++

Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征

machine-learning nlp

Machine learning 通用报告格式++/马鹿包括整个句子的范畴作为特征,machine-learning,nlp,named-entity-recognition,crf,crf++,Machine Learning,Nlp,Named Entity Recognition,Crf,Crf++,如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征例如，如果句子Tumblr与Yahoo.合并，被归类为Business，那么在为crf编写培训文件时，我在哪里可以将标签Business作为一项功能？那么模板应该如何建模呢列车文件应该是这样的吗 Tumblr business ORG merges business O with business O Yahoo business ORG 或者只包含带有ORG标

如何在CRF++或Wapiti中将从NaiveBayes预测的句子类别表示为特征

例如，如果句子

Tumblr与Yahoo.

合并，被归类为

Business

，那么在为crf编写培训文件时，我在哪里可以将标签

Business

作为一项功能？那么模板应该如何建模呢

列车文件应该是这样的吗

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

或者只包含带有

ORG

标签的类别？为什么呢模板文件？

方法1：您可以使用与前面相同的方式将

business

添加为功能，或者只需编写

而不是

business

。类似地，对于类别

体育

，您可以添加另一列，对于属于体育句子的单词，此列中的值应为

。您还必须分别在模板文件中添加每一列

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

方法2：

包含ORG的类别可能不是一个好主意，因为同一个ORG可以出现在不同的类别中。

< P>据我所知，你的火车文件是包括句子级注释的唯一方法，除非你考虑适应/实现一个考虑句子级特征的CRF。如果您有足够的训练数据和数量有限的类别，此方法可能会影响句子类别的低权重：仅当命名实体模棱两可且计算的NE类别概率接近时，此方法才用于区分命名实体

最好的方法确实是使用/不使用此功能进行训练，看看它是否能提高NER！这应该是一个有趣的实验：）

我看到的方法1的关注点是，一般单词也会得到类别标签。这些一般性词语可以在其他句子中以不同的结构出现。你不认为这会削弱这个类别的重要性吗。因为如果你仔细想想，某些实体在特定类别的句子中出现的几率更高。就我个人而言，我更喜欢方法2，它增加了模板中标记类别的单词上下文，

U42:%x[0,1]/%x[-1,0]/%x[0,0]/%x[1,0]

等等。这在某种意义上是正确的吗？