Stanford nlp 将特定于域的实体添加到spaCy或Stanford NLP培训集中

Stanford nlp 将特定于域的实体添加到spaCy或Stanford NLP培训集中,stanford-nlp,spacy,Stanford Nlp,Spacy,在重新训练模型之前,我们希望向斯坦福NLP或spaCy的训练集添加一些自定义实体。我们愿意为我们的定制实体添加标签,但我们希望将这些添加到现有的培训集中,以避免花费太多的时间来添加标签 我们假设NLP模型是在一个大的标记数据集上训练的,该数据集包括标记为“O”(“其他”,即不感兴趣的词)的标签以及标记为“日期”、“人员”、“组织”等的词。我们有一组自定义的组织词,但我们希望将其添加到所有其他标记数据中,在重新训练模型之前 这可能吗?我们怎样才能做到这一点?我们是否必须获得模型训练的标记数据集,以

在重新训练模型之前,我们希望向斯坦福NLP或spaCy的训练集添加一些自定义实体。我们愿意为我们的定制实体添加标签,但我们希望将这些添加到现有的培训集中,以避免花费太多的时间来添加标签

我们假设NLP模型是在一个大的标记数据集上训练的,该数据集包括标记为“O”(“其他”,即不感兴趣的词)的标签以及标记为“日期”、“人员”、“组织”等的词。我们有一组自定义的组织词,但我们希望将其添加到所有其他标记数据中,在重新训练模型之前

这可能吗?我们怎样才能做到这一点?我们是否必须获得模型训练的标记数据集,以便添加我们自己的数据?如果是的话,我们怎么做


我们已经使用Stanford NLP和spaCy构建了原型,因此任何一个的答案都适用于我们。

对于spaCy,您应该能够调用
NLP.update()
。这将根据当前重量更新重量,允许您恢复训练。如果您想进行多次更新,您可能希望使用原始模型解析一些文本,并通过培训将其混合,以避免“灾难性遗忘”问题。

对于spaCy,您应该能够调用
nlp.update()
。这将根据当前重量更新重量,允许您恢复训练。如果您想进行多次更新,您可能希望使用原始模型解析一些文本,并通过培训将其混合,以避免“灾难性遗忘”问题。

您可以使用helkaroui提供的此功能创建自己的培训集

您可以使用helkaroui提供的信息创建自己的训练集


找到此链接,它描述了实现我们想要的过程:找到此链接,它描述了实现我们想要的过程: