ApacheOpenNLP中培训自定义命名实体识别器的问题_Nlp_Opennlp_Training Data_Named Entity Recognition

ApacheOpenNLP中培训自定义命名实体识别器的问题

nlp

ApacheOpenNLP中培训自定义命名实体识别器的问题,nlp,opennlp,training-data,named-entity-recognition,Nlp,Opennlp,Training Data,Named Entity Recognition,我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据（我只有名单）因此，我想创建自己的语料库，在下面几行中使用要替换的每个名称 Hi How are you <START:person> Hardik <END> <START:person> Hardik <END> is a great personality Contributions from <START:person> Hardik <END&g

我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据（我只有名单）

因此，我想创建自己的语料库，在下面几行中使用要替换的每个名称

Hi How are you <START:person> Hardik <END> 
<START:person> Hardik <END>  is a great personality
Contributions from <START:person> Hardik <END>  are very important
<START:person> Hardik <END>  believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.

我最终得到了这样的输出

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik

文档中的每个单词都作为

person

抛出。这是

过度装配/噪音的一个例子吗

。我在这里真的很困惑，为什么它的行为是这样的，即使这些词没有这样注释

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik