Machine learning 如何获取OpenNLP模型的训练数据集?

Machine learning 如何获取OpenNLP模型的训练数据集?,machine-learning,nlp,text-mining,opennlp,Machine Learning,Nlp,Text Mining,Opennlp,我正在使用以下OpenNLP模型: en-parser-chunking.bin en-ner-person.bin en-ner-location.bin en-ner-organization.bin 我想将我的数据附加到训练数据集中,在训练数据集中训练这些模型。因此,请告诉我从哪里可以获得原始数据集?的Chunker Training一节提到了用于培训EN语言模型文件的原始数据: 训练数据可以转换为OpenNLP chunker训练格式,即基于 您还可以找到其他参考资料,例如第12章。语

我正在使用以下OpenNLP模型:

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin
我想将我的数据附加到训练数据集中,在训练数据集中训练这些模型。因此,请告诉我从哪里可以获得原始数据集?

的Chunker Training一节提到了用于培训EN语言模型文件的原始数据:

训练数据可以转换为OpenNLP chunker训练格式,即基于

您还可以找到其他参考资料,例如第12章。语料库,指向OpenNLP中/用于OpenNLP的外部资源

此外,CoNLL2003语料库可能值得关注:

英文数据是路透社语料库,这是一个新闻通讯文章的集合。出于研究目的,可从NIST免费获得路透社语料库:


希望有帮助。

有一些插件可供使用。使用此选项可以更新现有的NER模型,也可以更快地创建新模型

链接中的代码是在你的句子中读出来的,使用默认的en-ner-person模型做到最好。然后,它将这些结果写入一个命中率好的文件和一个命中率差的文件。然后将这些文件输入底部的“modelbuilder插件”调用


希望这有帮助

您能帮助我如何使用OpenNLPAPI通过我自己的示例数据来训练现有的NER模型吗?我担心这是关于StOf的另一个问题。我为您提供了“从何处获取原始数据集”问题的答案。它给出了一个有效且可接受的答案。你可能会考虑问一个新的,单独的问题,我来看看。我有路透社数据集,但现在我只想知道如何继续下去,把我自己的数据添加到它。嘿!是否有任何示例可以用来更新OpenNLP的现有模型?请检查我的存储库:hi@iamgr007,谢谢。请检查。但是modelbuilder插件有maven repo吗?你能告诉我GetSentencesFromsomeone()有什么功能吗?它是否带来了正常的未加注释的句子进行分析?另一个问题,如果是这样的话,那么该文件中需要多少个句子列表,这样我才能从中制作出好的模型?@AbhishekSengupta getsentencesfromwhere()从您提供的数据集中获取句子,并进行完整注释(必须进行适当的预处理)我猜句子的数量没有限制,因为更多的数据=好的模型。无论如何,试着用一个大而广泛的数据集建立一个模型。如果有些东西不能锻炼,请查看opennlp文档以了解任何限制。