ApacheOpenNLP中培训自定义命名实体识别器的问题
我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据(我只有名单) 因此,我想创建自己的语料库,在下面几行中使用要替换的每个名称ApacheOpenNLP中培训自定义命名实体识别器的问题,nlp,opennlp,training-data,named-entity-recognition,Nlp,Opennlp,Training Data,Named Entity Recognition,我正在尝试建立一个自定义的NER模型来提取印度名字。但是我缺乏训练数据(我只有名单) 因此,我想创建自己的语料库,在下面几行中使用要替换的每个名称 Hi How are you <START:person> Hardik <END> <START:person> Hardik <END> is a great personality Contributions from <START:person> Hardik <END&g
Hi How are you <START:person> Hardik <END>
<START:person> Hardik <END> is a great personality
Contributions from <START:person> Hardik <END> are very important
<START:person> Hardik <END> believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.
我最终得到了这样的输出
[0..1) person This
[1..2) person employment
[2..3) person is
[3..4) person for
[4..5) person Hardik
文档中的每个单词都作为person
抛出。这是过度装配/噪音的一个例子吗
。我在这里真的很困惑,为什么它的行为是这样的,即使这些词没有这样注释
[0..1) person This
[1..2) person employment
[2..3) person is
[3..4) person for
[4..5) person Hardik