Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/wordpress/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 命名实体识别数据和特征_Nlp_Named Entity Recognition - Fatal编程技术网

Nlp 命名实体识别数据和特征

Nlp 命名实体识别数据和特征,nlp,named-entity-recognition,Nlp,Named Entity Recognition,我正在使用条件随机场构建一个命名实体识别器,并正在寻找两件事: A) 用于个人、地点和组织实体的开放源代码英语NER数据集 B) 一系列英语特色 我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我没有找到一个NER特性列表;我试图避免手工设计这些功能 谢谢A)除了MUC语料库之外,您还应该在这里查看手动注释的子语料库:它是免费的,有各种文档类型。它附带了用于解析NLTK、GATE和UIMA格式的工具: B) 这是一个非常笼统的问题。。您可以尝试n-gram、单词大写

我正在使用条件随机场构建一个命名实体识别器,并正在寻找两件事:

A) 用于个人、地点和组织实体的开放源代码英语NER数据集

B) 一系列英语特色

我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我没有找到一个NER特性列表;我试图避免手工设计这些功能

谢谢

A)除了MUC语料库之外,您还应该在这里查看手动注释的子语料库:它是免费的,有各种文档类型。它附带了用于解析NLTK、GATE和UIMA格式的工具:


B) 这是一个非常笼统的问题。。您可以尝试n-gram、单词大写、使用字串作为特征、词性等。您可以从阅读斯坦福大学CRF解析器方法开始:

您将从Ratinov&Roth那里找到一份关于NER所需内容的总结性和非常翔实的研究。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。

所以我认为你在寻找免费的东西,对吗?:)我想这张单子上有几个可能会有所帮助: