在斯坦福大学的CoreNlp中,为什么所有的专有名词(NNP)都不被命名为实体
我使用StanfordCoreNLP进行名称实体识别(NER)。我注意到,在某些情况下,它不是100%,这是好的,并不令人惊讶。然而,即使单个单词命名实体无法识别(即标签为在斯坦福大学的CoreNlp中,为什么所有的专有名词(NNP)都不被命名为实体,nlp,stanford-nlp,named-entity-recognition,Nlp,Stanford Nlp,Named Entity Recognition,我使用StanfordCoreNLP进行名称实体识别(NER)。我注意到,在某些情况下,它不是100%,这是好的,并不令人惊讶。然而,即使单个单词命名实体无法识别(即标签为O),它也有标签NNP(专有名词) 例如,给出一个示例句子“纽约的餐馆名称是最好的销售点。”,nerTags()产生[O,O,O,LOCATION,LOCATION,O,O,O]只正确识别“纽约”。这个句子的解析树如下所示 (ROOT (S (NP (NP (DT The) (NNP Restautan
O
),它也有标签NNP
(专有名词)
例如,给出一个示例句子“纽约的餐馆名称是最好的销售点。”,nerTags()
产生[O,O,O,LOCATION,LOCATION,O,O,O]
只正确识别“纽约”。这个句子的解析树如下所示
(ROOT
(S
(NP
(NP (DT The) (NNP RestautantName))
(PP (IN in)
(NP (NNP New) (NNP York))))
(VP (VBZ is)
(NP (DT the) (JJS best) (NN outlet)))
(. .)))
所以“RestaurantName”是一个专有名词(NNP
)
当我查找专有名词的定义时,它听起来非常接近命名实体。区别是什么?解析器是针对解析树库数据进行培训的,而命名实体识别器是针对个人、位置、组织和杂项的单独命名实体数据进行培训的
我本以为RestaurantName可能会被标记为MISC,但如果它没有被标记,这意味着在命名实体的培训数据中没有这样的示例。这里的关键点是,解析决策和命名实体决策是通过在单独数据上训练的单独模型完全独立地作出的。命名实体是90年代为信息检索/提取目的而发明的一个概念。更准确地说,它考虑应用程序(如搜索引擎)文本中的“相互测试名称” 你可以阅读 简言之,许多命名实体不是专有名词:日期、金额、集合实体等。相反,您可能会发现专有名词不是命名实体,但这相当罕见,并且取决于应用程序。例如,语言名称(英语、法语、西班牙语)被视为专有名词,但可能不是命名实体。历史、人类、宇宙也是如此 因此,NLP软件必须为每个专有名词确定它是否是一个实体以及它的类型,这并不是小事 理论上,命名实体的定义依赖于一个确定的引用,该引用将名称绑定到一个对象,无论是具体的还是抽象的。这导致了符号学和庸俗的考虑,所以我不会详细阐述,但您可能会发现许多文章和书籍讨论这个概念,以及它是如何在软件中实现的