Stanford nlp 用于生成训练数据的约定

Stanford nlp 用于生成训练数据的约定,stanford-nlp,crf,crf++,Stanford Nlp,Crf,Crf++,我必须做一个好的基于CRF的模型。我的目标是一个广阔的领域,我的目标类总数是17。我还制作了一套很好的特性集(austin.prop),通过做大量的实验,这些特性应该对我有用。NER没有产生好的结果。我需要知道NER的限制,NER是基于训练数据大小等背景下的CRF。 我搜索了很多,但到目前为止,我无法找到制作培训数据时应该遵循的惯例。 (注意:我完全知道如何创建模型并使用它,我只需要知道是否有任何约定,每个目标类中应该存在一定比例的约定等。) 如果有人能指导我,我会感谢你。对于英语,标准的培训数

我必须做一个好的基于CRF的模型。我的目标是一个广阔的领域,我的目标类总数是17。我还制作了一套很好的特性集(austin.prop),通过做大量的实验,这些特性应该对我有用。NER没有产生好的结果。我需要知道NER的限制,NER是基于训练数据大小等背景下的CRF。

我搜索了很多,但到目前为止,我无法找到制作培训数据时应该遵循的惯例。

(注意:我完全知道如何创建模型并使用它,我只需要知道是否有任何约定,每个目标类中应该存在一定比例的约定等。)


如果有人能指导我,我会感谢你。

对于英语,标准的培训数据集是CoNLL 2003,它有大约15000个标记句子,用于4个课程(组织、人员、地点、杂项)。

这真的很有帮助。你能给我介绍一下NER的局限性吗?