Nlp 为空间模型创建训练数据的方法?

Nlp 为空间模型创建训练数据的方法?,nlp,training-data,spacy,Nlp,Training Data,Spacy,我最近使用SpaCy开始了一次NLP之旅,我有大约5500条字符串要标记。在前100个版本中,我使用了一个带有自定义列的电子表格,然后通过一个脚本来生成Python字典。在工作表中,我对字符串、标签类型和标签值进行了笔划。然后,脚本从字符串中计算出标签值的位置 以这种方式生成培训数据相当耗时,而且容易出错 是否有任何工具可用于协助此操作?实际上,我只需要能够高亮显示子字符串,然后选择标签类型。我可以自己建造,但我觉得它可能已经存在了。我是spaCy的维护者之一,我们实际上一直在考虑这个问题!因此

我最近使用SpaCy开始了一次NLP之旅,我有大约5500条字符串要标记。在前100个版本中,我使用了一个带有自定义列的电子表格,然后通过一个脚本来生成Python字典。在工作表中,我对字符串、标签类型和标签值进行了笔划。然后,脚本从字符串中计算出标签值的位置

以这种方式生成培训数据相当耗时,而且容易出错


是否有任何工具可用于协助此操作?实际上,我只需要能够高亮显示子字符串,然后选择标签类型。我可以自己建造,但我觉得它可能已经存在了。

我是spaCy的维护者之一,我们实际上一直在考虑这个问题!因此,我们构建了一个与spaCy集成的注释工具,并将模型放入循环中,以帮助您更快地训练和评估模型。它目前处于测试阶段,但您可以注册免费邀请。Prodigy对其他注释工具的点击-拖动-高亮显示-选择概念采取了稍微不同的方法。它使用循环中的模型为训练建议具有最相关梯度的注释,并且只要求您提供简单的二进制反馈:接受或拒绝。这使您可以快速浏览示例。注释时,循环中的模型将更新,其预测将影响Prodigy下一步的要求

如果您希望改进spaCy模型中现有的实体类型,或者使用大量示例文本进行注释,那么这种方法尤其有效


如果您正在寻找一种更专门用于突出显示和注释文本范围的工具,您也应该查看。我不是100%确定输出是什么样子的,但您肯定能够将其转换为spaCy的训练格式。还有一个由社区的某个人开发的数据库。

您可以使用任何文档数据库(如Mongo DB)而不是excel工作表,将语句和标签保存在JSON结构中。 差不多


{“text”:“who is John”,“entities”:[{“type”:“PER”“startPos”:7“endPos”:11}}
Spacy还具有可用于对匹配令牌进行编码的属性。注意,它返回令牌的位置。您仍然需要将其转换为开始和结束索引,以使其与培训格式兼容。我也提到过同样的问题。

嘿,伊内斯,谢谢你的回复。事实上,我昨天注册了测试版,只是等着被接受。啊,太酷了!我们已经发出了小批量的邀请,以确保我们能够快速修复bug。如果你愿意,你可以给我发一封电子邮件,让我知道你是谁,并确保我们将你添加到下一批邀请中:)太棒了,电子邮件已发送。非常感谢。