Nlp 自定义NER模型提取用于训练的关键字的子字符串

Nlp 自定义NER模型提取用于训练的关键字的子字符串,nlp,opennlp,named-entity-recognition,Nlp,Opennlp,Named Entity Recognition,我使用OpenNlp的训练API训练了一个自定义的NER模型,其中包含超过一百万个句子,用于识别我所教授的技能。在测试过程中,我发现识别技能的模型和技能的子串。例如,我已经教授了一项技能“核心Java”,如果句子中有“核心”一词,那么我的模型会将其识别为一项技能。我想避免这种情况。如果整个单词都在测试句子中,我只想识别整个单词“coreJava” 如何改进我的自定义模型以获得上述结果?听起来您需要提供更多的培训示例 如果单词Core出现在您的培训数据中的唯一时间是作为短语Core Java的一部

我使用OpenNlp的训练API训练了一个自定义的NER模型,其中包含超过一百万个句子,用于识别我所教授的技能。在测试过程中,我发现识别技能的模型和技能的子串。例如,我已经教授了一项技能“核心Java”,如果句子中有“核心”一词,那么我的模型会将其识别为一项技能。我想避免这种情况。如果整个单词都在测试句子中,我只想识别整个单词“coreJava”


如何改进我的自定义模型以获得上述结果?

听起来您需要提供更多的培训示例

如果单词
Core
出现在您的培训数据中的唯一时间是作为短语
Core Java
的一部分,那么您的模型可能会了解到
Core
是技能名称的一部分,概率为100%,并且基于它知道的正确性。若要修复此问题,请在以不相关方式使用的位置添加更多培训数据。一些例子:

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.

谢谢,这真的很有帮助。