openNLP中的NER无案例训练模型

openNLP中的NER无案例训练模型,nlp,opennlp,Nlp,Opennlp,我想训练用于提取人名的模型(NER系统的一部分),但我想使该模型无大小写(我的意思是该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本 那么,在训练步骤中是否有任何参数可以做到这一点,或者有任何其他方法?如果必须使用OpenNLP,我想您可以在无案例训练数据上训练新模型。在训练新模型之前,只需获取任何可用的现有训练数据(带有适当的注释等),并将所有内容小写即可 或者,如果您可以使用斯坦福NER而不是OpenNLP,您可以使用斯坦福NER预先培训的无案例英语模型: 无论

我想训练用于提取人名的模型(NER系统的一部分),但我想使该模型无大小写(我的意思是该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本


那么,在训练步骤中是否有任何参数可以做到这一点,或者有任何其他方法?

如果必须使用OpenNLP,我想您可以在无案例训练数据上训练新模型。在训练新模型之前,只需获取任何可用的现有训练数据(带有适当的注释等),并将所有内容小写即可

或者,如果您可以使用斯坦福NER而不是OpenNLP,您可以使用斯坦福NER预先培训的无案例英语模型:


无论您走哪条路,请记住,使用无壳模型都会降低精度。

斯坦福大学NER对无壳模型使用了什么,我用openNLP训练的无案例模型无法与斯坦福的无案例模型相比。stanford-NER在人名提取方面给出了非常好的结果。stanford-NER的无大小写模型只是3个常规英语stanford-NER模型的无大小写(即小写)版本:一个为CoNLL训练的4类模型,一个为MUC训练的7类模型,以及一个在两个数据集的交集上训练的3类模型。你可以在这里下载无壳模型:我已经试过了,但我想知道为什么斯坦福NER的结果比openNLP NER好得多,我的意思是它们之间的主要区别是什么?非常感谢@Charlie的帮助。斯坦福NLP组程序员、算法和培训数据优于OpenNLP的程序员、算法和培训数据。:)