Machine learning 带'的列车空间模型;电子核心网络sm&x27;作为基础模型

Machine learning 带'的列车空间模型;电子核心网络sm&x27;作为基础模型,machine-learning,nlp,spacy,ner,Machine Learning,Nlp,Spacy,Ner,我使用Spacy用新实体训练我的NER模型,我使用en_core\u web\u sm模型作为我的基础模型,因为我还想检测基本实体(ORG,PERSON,DATE,等等)。我在未标记的句子上运行了en_core\u web\u sm模型,并将它们的注释添加到我的训练集中 完成之后,现在我想为新实体创建训练数据。例如,我想添加一个名为FRUIT的新实体。我有一大堆句子(除了前面用en\u core\u web\u sm注释的句子之外)我要注释。例如: “詹姆斯喜欢吃苹果” 我的问题是:我是否还需要

我使用Spacy用新实体训练我的NER模型,我使用
en_core\u web\u sm
模型作为我的基础模型,因为我还想检测基本实体(
ORG
PERSON
DATE
,等等)。我在未标记的句子上运行了
en_core\u web\u sm
模型,并将它们的注释添加到我的训练集中

完成之后,现在我想为新实体创建训练数据。例如,我想添加一个名为
FRUIT
的新实体。我有一大堆句子(除了前面用
en\u core\u web\u sm
注释的句子之外)我要注释。例如:

“詹姆斯喜欢吃苹果”


我的问题是:我是否还需要将“James”注释为
,以及将“apples”注释为
水果
?或者我是否不需要这样做,因为我已经有了另外一组句子,它们是使用前面的
en\u core\u web\u sm
模型用
PERSON
实体注释的。

简短回答:

是的,如果你想保持模型的精确性

长答案:

NER是使用机器学习算法实现的。这些方法基于学习的分布和周围的令牌将令牌分类为实体

因此,如果您提供了多个带注释文本的示例,而没有将一个单词(标记)标记为它通常表示的特定实体,那么您可能会通过向模型提供该标记不重要的示例来影响模型精度