Machine learning 如何获取OpenNLP模型的训练数据集？_Machine Learning_Nlp_Text Mining_Opennlp

Machine learning 如何获取OpenNLP模型的训练数据集？

machine-learning nlp

Machine learning 如何获取OpenNLP模型的训练数据集？,machine-learning,nlp,text-mining,opennlp,Machine Learning,Nlp,Text Mining,Opennlp,我正在使用以下OpenNLP模型： en-parser-chunking.bin en-ner-person.bin en-ner-location.bin en-ner-organization.bin 我想将我的数据附加到训练数据集中，在训练数据集中训练这些模型。因此，请告诉我从哪里可以获得原始数据集？的Chunker Training一节提到了用于培训EN语言模型文件的原始数据：训练数据可以转换为OpenNLP chunker训练格式，即基于您还可以找到其他参考资料，例如第12章。语

我正在使用以下OpenNLP模型：

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想将我的数据附加到训练数据集中，在训练数据集中训练这些模型。因此，请告诉我从哪里可以获得原始数据集？

的Chunker Training一节提到了用于培训EN语言模型文件的原始数据：

训练数据可以转换为OpenNLP chunker训练格式，即基于

您还可以找到其他参考资料，例如第12章。语料库，指向OpenNLP中/用于OpenNLP的外部资源

此外，CoNLL2003语料库可能值得关注：

英文数据是路透社语料库，这是一个新闻通讯文章的集合。出于研究目的，可从NIST免费获得路透社语料库：

希望有帮助。

有一些插件可供使用。使用此选项可以更新现有的NER模型，也可以更快地创建新模型

链接中的代码是在你的句子中读出来的，使用默认的en-ner-person模型做到最好。然后，它将这些结果写入一个命中率好的文件和一个命中率差的文件。然后将这些文件输入底部的“modelbuilder插件”调用

希望这有帮助

您能帮助我如何使用OpenNLPAPI通过我自己的示例数据来训练现有的NER模型吗？我担心这是关于StOf的另一个问题。我为您提供了“从何处获取原始数据集”问题的答案。它给出了一个有效且可接受的答案。你可能会考虑问一个新的，单独的问题，我来看看。我有路透社数据集，但现在我只想知道如何继续下去，把我自己的数据添加到它。嘿！是否有任何示例可以用来更新OpenNLP的现有模型？请检查我的存储库：hi@iamgr007，谢谢。请检查。但是modelbuilder插件有maven repo吗？你能告诉我GetSentencesFromsomeone（）有什么功能吗？它是否带来了正常的未加注释的句子进行分析？另一个问题，如果是这样的话，那么该文件中需要多少个句子列表，这样我才能从中制作出好的模型？@AbhishekSengupta getsentencesfromwhere（）从您提供的数据集中获取句子，并进行完整注释（必须进行适当的预处理）我猜句子的数量没有限制，因为更多的数据=好的模型。无论如何，试着用一个大而广泛的数据集建立一个模型。如果有些东西不能锻炼，请查看opennlp文档以了解任何限制。