ApacheOpenNLP中培训自定义命名实体识别器的问题

ApacheOpenNLP中培训自定义命名实体识别器的问题,nlp,opennlp,training-data,named-entity-recognition,Nlp,Opennlp,Training Data,Named Entity Recognition,我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据(我只有名单) 因此,我想创建自己的语料库,在下面几行中使用要替换的每个名称 Hi How are you <START:person> Hardik <END> <START:person> Hardik <END> is a great personality Contributions from <START:person> Hardik <END&g

我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据(我只有名单)

因此,我想创建自己的语料库,在下面几行中使用要替换的每个名称

Hi How are you <START:person> Hardik <END> 
<START:person> Hardik <END>  is a great personality
Contributions from <START:person> Hardik <END>  are very important
<START:person> Hardik <END>  believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.
我最终得到了这样的输出

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik
文档中的每个单词都作为
person
抛出。这是
过度装配/噪音的一个例子吗
。我在这里真的很困惑,为什么它的行为是这样的,即使这些词没有这样注释

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik