Python 如何利用CRFSuite编制CRF模型训练语料库

Python 如何利用CRFSuite编制CRF模型训练语料库,python,named-entity-recognition,crf,Python,Named Entity Recognition,Crf,我需要以下格式的数据 (u'Melbourne', u'NP', u'B-LOC'), (u'(', u'Fpa', u'O'), (u'Australia', u'NP', u'B-LOC'), (u')', u'Fpt', u'O'), (u',', u'Fc', u'O'), 我所拥有的只是txt文件,我需要用于NER任务的CRF模型的数据。 我计划使用用于python的crf套件,但不太明白如何标记训练数据。 我可以用pos标记它,但是如何添加命名实体,因为我需要用两个自定义标

我需要以下格式的数据

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),
我所拥有的只是txt文件,我需要用于NER任务的CRF模型的数据。 我计划使用用于python的crf套件,但不太明白如何标记训练数据。
我可以用pos标记它,但是如何添加命名实体,因为我需要用两个自定义标签标记训练数据。

如果你想训练CRF模型,那么你需要带注释的数据;对于某些任务,可以依赖现有的语料库,但是如果您的任务是新的,那么您必须自己注释实体。有一些工具可以帮助您,例如查看。还有内置的注释工具


POS标签通常用作功能,但它们不是严格要求的(而且您还应该使用许多其他功能)。

如果您想训练CRF模型,则需要带注释的数据;对于某些任务,可以依赖现有的语料库,但是如果您的任务是新的,那么您必须自己注释实体。有一些工具可以帮助您,例如查看。还有内置的注释工具


POS标签通常用作功能,但它们不是严格要求的(您还应该使用许多其他功能).

如果您想用不同的实体而不仅仅是
位置
人员
实体创建自己的培训数据,那么您可以参考我的答案如果您想用不同的实体而不仅仅是
位置
人员
实体创建自己的培训数据,那么您可以参考我的答案是,Brat是一种为新数据集添加注释的极好方法。注释后,需要将Brat输出的Standoff格式转换为Stanford NER接受的格式

Brat是注释新数据集的极好方法。注释后,需要将Brat输出的Standoff格式转换为Stanford NER接受的格式

是的,我的任务是特定于域的,谢谢,我会尝试这些工具。是的,我的任务是特定于域的,谢谢,我会尝试这些工具