如何检索斯坦福nlp模块分类的所有可能的ner_标记类的列表?

如何检索斯坦福nlp模块分类的所有可能的ner_标记类的列表?,nlp,nltk,stanford-nlp,Nlp,Nltk,Stanford Nlp,我想查看斯坦福nlp将文本分类为的所有可能的ner_标记,如人员、位置、组织、标题等,我在哪里可以找到这些标记,非常感谢任何指针。来自斯坦福ner docs,: 型号 斯坦福NER包括一个在CoNLL上训练的4级模型 2003年工程训练,7级模型,在MUC 6和MUC 7上进行训练 培训数据集,以及在数据集和 一些附加数据(包括ACE 2002和有限数量的 这些类集的交集上的内部数据)。(a)培训 3类模型的数据不包括来自 CoNLL eng.testa或eng.testb数据集,以及任何MUC

我想查看斯坦福nlp将文本分类为的所有可能的ner_标记,如人员、位置、组织、标题等,我在哪里可以找到这些标记,非常感谢任何指针。

来自斯坦福ner docs,:

型号

斯坦福NER包括一个在CoNLL上训练的4级模型 2003年工程训练,7级模型,在MUC 6和MUC 7上进行训练 培训数据集,以及在数据集和 一些附加数据(包括ACE 2002和有限数量的 这些类集的交集上的内部数据)。(a)培训 3类模型的数据不包括来自 CoNLL eng.testa或eng.testb数据集,以及任何MUC 6或7测试 或者devtest数据集,或者Alan Ritter的Twitter NER数据 这些仍然是对其性能的有效测试。)

3类:地点、人员、组织

4类:地点、人员、组织、杂项

7类:地点、人员、组织、资金、百分比、日期、时间

这些模型都使用分布相似性 功能,它提供了一些性能增益,但代价是 增加它们的大小和运行时间。同样的型号也有 缺少这些功能


您可能也对以下内容感兴趣:

  • 康奈尔2003
  • NLTK中的NE标记集

这取决于语言、使用的统计模型、是否使用tokensregex细粒度NER等

对于具有默认配置(包括数字NER和SUTime)的英语,您可以获得–加上O顶部提到的12种实体类型,表示非实体:

识别命名(个人、地点、组织、杂项)、数字(货币、数字、序号、百分比)和时间(日期、时间、持续时间、集合)实体

如果添加细粒度令牌SRegex-NER,还可以获得:

死因、城市、国家、刑事指控、电子邮件、意识形态、国籍、宗教、州或省、头衔、URL


非常感谢@Christopher Manning,这是非常有用的信息。