Nlp 为空间模型创建训练数据的方法？_Nlp_Training Data_Spacy

Nlp 为空间模型创建训练数据的方法？

nlp

Nlp 为空间模型创建训练数据的方法？,nlp,training-data,spacy,Nlp,Training Data,Spacy,我最近使用SpaCy开始了一次NLP之旅，我有大约5500条字符串要标记。在前100个版本中，我使用了一个带有自定义列的电子表格，然后通过一个脚本来生成Python字典。在工作表中，我对字符串、标签类型和标签值进行了笔划。然后，脚本从字符串中计算出标签值的位置以这种方式生成培训数据相当耗时，而且容易出错是否有任何工具可用于协助此操作？实际上，我只需要能够高亮显示子字符串，然后选择标签类型。我可以自己建造，但我觉得它可能已经存在了。我是spaCy的维护者之一，我们实际上一直在考虑这个问题！因此

我最近使用SpaCy开始了一次NLP之旅，我有大约5500条字符串要标记。在前100个版本中，我使用了一个带有自定义列的电子表格，然后通过一个脚本来生成Python字典。在工作表中，我对字符串、标签类型和标签值进行了笔划。然后，脚本从字符串中计算出标签值的位置

以这种方式生成培训数据相当耗时，而且容易出错

是否有任何工具可用于协助此操作？实际上，我只需要能够高亮显示子字符串，然后选择标签类型。我可以自己建造，但我觉得它可能已经存在了。

我是spaCy的维护者之一，我们实际上一直在考虑这个问题！因此，我们构建了一个与spaCy集成的注释工具，并将模型放入循环中，以帮助您更快地训练和评估模型。它目前处于测试阶段，但您可以注册免费邀请。Prodigy对其他注释工具的点击-拖动-高亮显示-选择概念采取了稍微不同的方法。它使用循环中的模型为训练建议具有最相关梯度的注释，并且只要求您提供简单的二进制反馈：接受或拒绝。这使您可以快速浏览示例。注释时，循环中的模型将更新，其预测将影响Prodigy下一步的要求

如果您希望改进spaCy模型中现有的实体类型，或者使用大量示例文本进行注释，那么这种方法尤其有效

如果您正在寻找一种更专门用于突出显示和注释文本范围的工具，您也应该查看。我不是100%确定输出是什么样子的，但您肯定能够将其转换为spaCy的训练格式。还有一个由社区的某个人开发的数据库。

您可以使用任何文档数据库（如Mongo DB）而不是excel工作表，将语句和标签保存在JSON结构中。差不多

{“text”：“who is John”，“entities”：[{“type”：“PER”“startPos”：7“endPos”：11}}

Spacy还具有可用于对匹配令牌进行编码的属性。注意，它返回令牌的位置。您仍然需要将其转换为开始和结束索引，以使其与培训格式兼容。我也提到过同样的问题。

嘿，伊内斯，谢谢你的回复。事实上，我昨天注册了测试版，只是等着被接受。啊，太酷了！我们已经发出了小批量的邀请，以确保我们能够快速修复bug。如果你愿意，你可以给我发一封电子邮件，让我知道你是谁，并确保我们将你添加到下一批邀请中：）太棒了，电子邮件已发送。非常感谢。