Nlp NER语料库的带注释训练数据

Nlp NER语料库的带注释训练数据,nlp,opennlp,corpus,training-data,named-entity-recognition,Nlp,Opennlp,Corpus,Training Data,Named Entity Recognition,opennlp的文档中提到,我们必须使用15000行来训练我们的模型,以获得良好的性能。 现在,我必须从文档中提取不同的实体,这意味着我必须为培训数据中的许多令牌(15000行)添加不同的标记,这将花费大量时间。还有别的办法吗?这将减少时间或任何其他方法,我可以继续 谢谢。以下是一些工具: 大门 GATE Teamware(基于web的) XConc套件 Sapient(基于句子) KnowStator(Protégé插件) 微粒子工具 UIMA CAS编辑器 木卫四 文字怪癖 MMax2 参考

opennlp的文档中提到,我们必须使用15000行来训练我们的模型,以获得良好的性能。 现在,我必须从文档中提取不同的实体,这意味着我必须为培训数据中的许多令牌(15000行)添加不同的标记,这将花费大量时间。还有别的办法吗?这将减少时间或任何其他方法,我可以继续

谢谢。

以下是一些工具:

大门

GATE Teamware(基于web的)

XConc套件

Sapient(基于句子)

KnowStator(Protégé插件)

微粒子工具

UIMA CAS编辑器

木卫四

文字怪癖

MMax2


参考资料:

这本书也值得一试:


我自己也用过,推荐使用。

注释需要时间,需要熟悉实体领域的人。这个问题没有办法解决

最后,注释必须采用opennlp可以识别的格式。opennlp文档的基本格式如下所示:

数据可以转换为OpenNLP名称查找器训练格式。每行一句话。其他一些格式也可用。句子必须标记化,并包含标记实体的跨距。文档由空行分隔,空行触发自适应特征生成器的重置。培训文件可以包含多种类型。如果培训文件包含多种类型,则创建的模型也将能够检测这些多种类型。目前,建议只培训单一类型的模型,因为多类型支持仍处于试验阶段


因此,如果您使用其他答案中提到的工具之一,您需要确保opennlp可以读取该格式或将该格式转换为可以识别的格式。

很抱歉,这里没有很好的解决方法。在我们过去的项目中,我们必须多次这样做,有时我们很幸运,有许多标签工为我们工作,以获得手动注释的数据集构建,其余时间我们自己做

此外,我不确定您是否真的需要15k数据项,我建议 从低至1-2k开始,根据 在特定情况下,您可能会对结果感到惊讶

现在,为了构建您的数据集,最初我们使用的是普通的旧excel表格,很快它就变成了一场噩梦,excel不是为此类任务而设计的,在excel中查看1000行文本和手工注释是非常痛苦的

以下是我推荐的一些工具:

Dataturks:非常易于使用的在线工具,提供直观的用户界面,您可以让一个团队同时处理数据集。输出与openNLP、coreNLP等完全兼容

::好的旧工具。下载到您的本地机器,运行良好,安装有点困难

BRAT:一个开源工具,可下载,在标记方面做得很好

希望这有帮助,快乐标签:)

FYI