Nlp NER语料库的带注释训练数据_Nlp_Opennlp_Corpus_Training Data_Named Entity Recognition

Nlp NER语料库的带注释训练数据

nlp

Nlp NER语料库的带注释训练数据,nlp,opennlp,corpus,training-data,named-entity-recognition,Nlp,Opennlp,Corpus,Training Data,Named Entity Recognition,opennlp的文档中提到，我们必须使用15000行来训练我们的模型，以获得良好的性能。现在，我必须从文档中提取不同的实体，这意味着我必须为培训数据中的许多令牌（15000行）添加不同的标记，这将花费大量时间。还有别的办法吗？这将减少时间或任何其他方法，我可以继续谢谢。以下是一些工具：大门 GATE Teamware（基于web的） XConc套件 Sapient（基于句子） KnowStator（Protégé插件）微粒子工具 UIMA CAS编辑器木卫四文字怪癖 MMax2 参考

opennlp的文档中提到，我们必须使用15000行来训练我们的模型，以获得良好的性能。现在，我必须从文档中提取不同的实体，这意味着我必须为培训数据中的许多令牌（15000行）添加不同的标记，这将花费大量时间。还有别的办法吗？这将减少时间或任何其他方法，我可以继续

谢谢。

以下是一些工具：

大门

GATE Teamware（基于web的）

XConc套件

Sapient（基于句子）

KnowStator（Protégé插件）

微粒子工具

UIMA CAS编辑器

木卫四

文字怪癖

MMax2

参考资料：

这本书也值得一试：

我自己也用过，推荐使用。

注释需要时间，需要熟悉实体领域的人。这个问题没有办法解决

最后，注释必须采用opennlp可以识别的格式。opennlp文档的基本格式如下所示：

数据可以转换为OpenNLP名称查找器训练格式。每行一句话。其他一些格式也可用。句子必须标记化，并包含标记实体的跨距。文档由空行分隔，空行触发自适应特征生成器的重置。培训文件可以包含多种类型。如果培训文件包含多种类型，则创建的模型也将能够检测这些多种类型。目前，建议只培训单一类型的模型，因为多类型支持仍处于试验阶段

因此，如果您使用其他答案中提到的工具之一，您需要确保opennlp可以读取该格式或将该格式转换为可以识别的格式。

很抱歉，这里没有很好的解决方法。在我们过去的项目中，我们必须多次这样做，有时我们很幸运，有许多标签工为我们工作，以获得手动注释的数据集构建，其余时间我们自己做

此外，我不确定您是否真的需要15k数据项，我建议从低至1-2k开始，根据在特定情况下，您可能会对结果感到惊讶

现在，为了构建您的数据集，最初我们使用的是普通的旧excel表格，很快它就变成了一场噩梦，excel不是为此类任务而设计的，在excel中查看1000行文本和手工注释是非常痛苦的

以下是我推荐的一些工具：

Dataturks：非常易于使用的在线工具，提供直观的用户界面，您可以让一个团队同时处理数据集。输出与openNLP、coreNLP等完全兼容

门：：好的旧工具。下载到您的本地机器，运行良好，安装有点困难

BRAT：一个开源工具，可下载，在标记方面做得很好

希望这有帮助，快乐标签：）

FYI