Python 使用NLTK ieer或conll2000语料库为NER培训语料库_Python_Nltk_Named Entity Recognition

Python 使用NLTK ieer或conll2000语料库为NER培训语料库

python

Python 使用NLTK ieer或conll2000语料库为NER培训语料库,python,nltk,named-entity-recognition,Python,Nltk,Named Entity Recognition,我一直在尝试为特定领域的命名实体识别和新实体训练一个模型。似乎没有一个完整的合适的管道用于此，需要使用不同的包我想给你一个机会去NLTK。我的问题是，如何训练NLTK NER使用ieer语料库对新实体进行分类和匹配我当然会提供IOB格式的培训数据，如： We PRP B-NP saw VBD O the DT B-NP yellow JJ I-NP dog NN I-NP 我想我得自己给这些代币贴上标签当我有一个这种格式的文本文件时，下一步该怎么做？用ieer语料库或更好的conll20

我一直在尝试为特定领域的命名实体识别和新实体训练一个模型。似乎没有一个完整的合适的管道用于此，需要使用不同的包

我想给你一个机会去NLTK。我的问题是，如何训练NLTK NER使用ieer语料库对新实体进行分类和匹配

我当然会提供IOB格式的培训数据，如：

We PRP B-NP
saw VBD O
the DT B-NP
yellow JJ I-NP
dog NN I-NP

我想我得自己给这些代币贴上标签

当我有一个这种格式的文本文件时，下一步该怎么做？用ieer语料库或更好的conll2000训练数据的步骤是什么

我知道那里有一些文档，但我不清楚在您标记了培训语料库之后该怎么做

我想使用NLTK，因为我想使用relextract（）函数

请给我任何建议

谢谢

nltk为您提供了所需的一切。阅读nltk书籍的第6章，关于。它提供了一个分类的工作示例。然后学习中的第2节和第3节，它们向您展示了如何使用IOB文本和编写组块分类器。虽然示例应用程序不是命名实体识别，但代码示例几乎不需要任何更改即可工作（当然，您需要自定义功能函数才能获得良好的性能）

您还可以使用nltk的标记器（或另一个标记器）将POS标记添加到语料库中，或者您也可以抓住机会，尝试在没有词性标记的数据（仅IOB命名实体类别）上训练分类器。我的猜测是词性标记将提高性能，如果在培训数据上使用与评估（以及最终的生产使用）相同的词性标记，您实际上会过得更好。

感谢Alexis提供的信息，我知道这些文档，但我仍然不知道一旦你有了培训数据，如何进行培训。你能提供一些例子吗？我引用的章节都是非常完整的教程。如果你被困在某个地方，发布你的代码（相关部分）并询问关于出错步骤的特定问题。我已经构建了自己的分类器，但仍然遇到一些问题。我在这里发布了一个新问题：很高兴听到一些建议。