Nlp 命名实体识别数据和特征
我正在使用条件随机场构建一个命名实体识别器,并正在寻找两件事: A) 用于个人、地点和组织实体的开放源代码英语NER数据集 B) 一系列英语特色 我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我没有找到一个NER特性列表;我试图避免手工设计这些功能 谢谢A)除了MUC语料库之外,您还应该在这里查看手动注释的子语料库:它是免费的,有各种文档类型。它附带了用于解析NLTK、GATE和UIMA格式的工具:Nlp 命名实体识别数据和特征,nlp,named-entity-recognition,Nlp,Named Entity Recognition,我正在使用条件随机场构建一个命名实体识别器,并正在寻找两件事: A) 用于个人、地点和组织实体的开放源代码英语NER数据集 B) 一系列英语特色 我已经查看了CoNLL-2003语料库,发现这正是我想要的,但它并不容易获得。我没有找到一个NER特性列表;我试图避免手工设计这些功能 谢谢A)除了MUC语料库之外,您还应该在这里查看手动注释的子语料库:它是免费的,有各种文档类型。它附带了用于解析NLTK、GATE和UIMA格式的工具: B) 这是一个非常笼统的问题。。您可以尝试n-gram、单词大写
B) 这是一个非常笼统的问题。。您可以尝试n-gram、单词大写、使用字串作为特征、词性等。您可以从阅读斯坦福大学CRF解析器方法开始:您将从Ratinov&Roth那里找到一份关于NER所需内容的总结性和非常翔实的研究。此外,他们的系统是完全开源的,包括从维基百科收集的命名实体列表。所以我认为你在寻找免费的东西,对吗?:)我想这张单子上有几个可能会有所帮助: