Machine learning 带'的列车空间模型;电子核心网络sm&x27;作为基础模型
我使用Spacy用新实体训练我的NER模型,我使用Machine learning 带'的列车空间模型;电子核心网络sm&x27;作为基础模型,machine-learning,nlp,spacy,ner,Machine Learning,Nlp,Spacy,Ner,我使用Spacy用新实体训练我的NER模型,我使用en_core\u web\u sm模型作为我的基础模型,因为我还想检测基本实体(ORG,PERSON,DATE,等等)。我在未标记的句子上运行了en_core\u web\u sm模型,并将它们的注释添加到我的训练集中 完成之后,现在我想为新实体创建训练数据。例如,我想添加一个名为FRUIT的新实体。我有一大堆句子(除了前面用en\u core\u web\u sm注释的句子之外)我要注释。例如: “詹姆斯喜欢吃苹果” 我的问题是:我是否还需要
en_core\u web\u sm
模型作为我的基础模型,因为我还想检测基本实体(ORG
,PERSON
,DATE
,等等)。我在未标记的句子上运行了en_core\u web\u sm
模型,并将它们的注释添加到我的训练集中
完成之后,现在我想为新实体创建训练数据。例如,我想添加一个名为FRUIT
的新实体。我有一大堆句子(除了前面用en\u core\u web\u sm
注释的句子之外)我要注释。例如:
“詹姆斯喜欢吃苹果”
我的问题是:我是否还需要将“James”注释为
人
,以及将“apples”注释为水果
?或者我是否不需要这样做,因为我已经有了另外一组句子,它们是使用前面的en\u core\u web\u sm
模型用PERSON
实体注释的。简短回答:
是的,如果你想保持模型的精确性
长答案:
NER是使用机器学习算法实现的。这些方法基于学习的分布和周围的令牌将令牌分类为实体
因此,如果您提供了多个带注释文本的示例,而没有将一个单词(标记)标记为它通常表示的特定实体,那么您可能会通过向模型提供该标记不重要的示例来影响模型精度