Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/350.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用NLTK ieer或conll2000语料库为NER培训语料库_Python_Nltk_Named Entity Recognition - Fatal编程技术网

Python 使用NLTK ieer或conll2000语料库为NER培训语料库

Python 使用NLTK ieer或conll2000语料库为NER培训语料库,python,nltk,named-entity-recognition,Python,Nltk,Named Entity Recognition,我一直在尝试为特定领域的命名实体识别和新实体训练一个模型。似乎没有一个完整的合适的管道用于此,需要使用不同的包 我想给你一个机会去NLTK。我的问题是,如何训练NLTK NER使用ieer语料库对新实体进行分类和匹配 我当然会提供IOB格式的培训数据,如: We PRP B-NP saw VBD O the DT B-NP yellow JJ I-NP dog NN I-NP 我想我得自己给这些代币贴上标签 当我有一个这种格式的文本文件时,下一步该怎么做?用ieer语料库或更好的conll20

我一直在尝试为特定领域的命名实体识别和新实体训练一个模型。似乎没有一个完整的合适的管道用于此,需要使用不同的包

我想给你一个机会去NLTK。我的问题是,如何训练NLTK NER使用ieer语料库对新实体进行分类和匹配

我当然会提供IOB格式的培训数据,如:

We PRP B-NP
saw VBD O
the DT B-NP
yellow JJ I-NP
dog NN I-NP
我想我得自己给这些代币贴上标签

当我有一个这种格式的文本文件时,下一步该怎么做?用ieer语料库或更好的conll2000训练数据的步骤是什么

我知道那里有一些文档,但我不清楚在您标记了培训语料库之后该怎么做

我想使用NLTK,因为我想使用relextract()函数

请给我任何建议


谢谢

nltk为您提供了所需的一切。阅读nltk书籍的第6章,关于。它提供了一个分类的工作示例。然后学习中的第2节和第3节,它们向您展示了如何使用IOB文本和编写组块分类器。虽然示例应用程序不是命名实体识别,但代码示例几乎不需要任何更改即可工作(当然,您需要自定义功能函数才能获得良好的性能)


您还可以使用nltk的标记器(或另一个标记器)将POS标记添加到语料库中,或者您也可以抓住机会,尝试在没有词性标记的数据(仅IOB命名实体类别)上训练分类器。我的猜测是词性标记将提高性能,如果在培训数据上使用与评估(以及最终的生产使用)相同的词性标记,您实际上会过得更好。

感谢Alexis提供的信息,我知道这些文档,但我仍然不知道一旦你有了培训数据,如何进行培训。你能提供一些例子吗?我引用的章节都是非常完整的教程。如果你被困在某个地方,发布你的代码(相关部分)并询问关于出错步骤的特定问题。我已经构建了自己的分类器,但仍然遇到一些问题。我在这里发布了一个新问题:很高兴听到一些建议。